Из-за появления новых технологий, устройств и средств связи, таких как сайты социальных сетей, объем данных, производимых человечеством, быстро растет с каждым годом. Объем данных, произведенных нами с начала времен до 2003 года, составил 5 миллиардов гигабайт. Если вы накапливаете данные в виде дисков, они могут заполнить все футбольное поле. Одна и та же сумма создавалась каждые два дня в 2011 году и каждые десять минут в 2013 году . Этот показатель по-прежнему чрезвычайно растет. Хотя вся эта информация имеет смысл и может быть полезной при обработке, ею пренебрегают.
Что такое большие данные?
Большие данные — это набор больших наборов данных, которые не могут быть обработаны с использованием традиционных вычислительных технологий. Это не отдельная техника или инструмент, скорее, она стала полным предметом, который включает в себя различные инструменты, технологии и структуры.
Что входит в большие данные?
Большие данные включают в себя данные, произведенные различными устройствами и приложениями. Ниже приведены некоторые из полей, которые подпадают под зонтик больших данных.
-
Данные черного ящика — это компонент вертолета, самолетов, самолетов и т. Д. Он фиксирует голоса летного экипажа, записи микрофонов и наушников и информацию о характеристиках самолета.
-
Данные социальных сетей — социальные сети, такие как Facebook и Twitter, содержат информацию и мнения, опубликованные миллионами людей по всему миру.
-
Данные фондовой биржи — Данные фондовой биржи содержат информацию о решениях «купить» и «продать», принятых в отношении акций различных компаний, принятых клиентами.
-
Данные энергосистемы — данные энергосистемы содержат информацию, потребляемую конкретным узлом относительно базовой станции.
-
Транспортные данные — Транспортные данные включают модель, вместимость, расстояние и доступность транспортного средства.
-
Данные поисковой системы — поисковые системы извлекают много данных из разных баз данных.
Данные черного ящика — это компонент вертолета, самолетов, самолетов и т. Д. Он фиксирует голоса летного экипажа, записи микрофонов и наушников и информацию о характеристиках самолета.
Данные социальных сетей — социальные сети, такие как Facebook и Twitter, содержат информацию и мнения, опубликованные миллионами людей по всему миру.
Данные фондовой биржи — Данные фондовой биржи содержат информацию о решениях «купить» и «продать», принятых в отношении акций различных компаний, принятых клиентами.
Данные энергосистемы — данные энергосистемы содержат информацию, потребляемую конкретным узлом относительно базовой станции.
Транспортные данные — Транспортные данные включают модель, вместимость, расстояние и доступность транспортного средства.
Данные поисковой системы — поисковые системы извлекают много данных из разных баз данных.
Таким образом, большие данные включают в себя огромный объем, высокую скорость и расширяемое разнообразие данных. Данные в нем будут трех типов.
-
Структурированные данные — реляционные данные.
-
Полуструктурированные данные — данные XML.
-
Неструктурированные данные — Word, PDF, Text, Media Logs.
Структурированные данные — реляционные данные.
Полуструктурированные данные — данные XML.
Неструктурированные данные — Word, PDF, Text, Media Logs.
Преимущества больших данных
-
Используя информацию, хранящуюся в социальной сети, такой как Facebook, маркетинговые агентства узнают о реакции на свои кампании, рекламные акции и другие рекламные средства.
-
Используя информацию в социальных сетях, такую как предпочтения и восприятие продукта потребителями, производственные компании и розничные организации планируют их производство.
-
Используя данные, относящиеся к предыдущей истории болезни пациентов, больницы обеспечивают лучшее и быстрое обслуживание.
Используя информацию, хранящуюся в социальной сети, такой как Facebook, маркетинговые агентства узнают о реакции на свои кампании, рекламные акции и другие рекламные средства.
Используя информацию в социальных сетях, такую как предпочтения и восприятие продукта потребителями, производственные компании и розничные организации планируют их производство.
Используя данные, относящиеся к предыдущей истории болезни пациентов, больницы обеспечивают лучшее и быстрое обслуживание.
Технологии больших данных
Технологии больших данных важны для обеспечения более точного анализа, который может привести к более конкретному принятию решений, что приведет к повышению операционной эффективности, снижению затрат и снижению рисков для бизнеса.
Чтобы использовать возможности больших данных, вам потребуется инфраструктура, которая может управлять и обрабатывать огромные объемы структурированных и неструктурированных данных в режиме реального времени и защищать конфиденциальность и безопасность данных.
Для обработки больших данных на рынке существуют различные технологии от разных поставщиков, включая Amazon, IBM, Microsoft и т. Д. Изучая технологии обработки больших данных, мы рассмотрим следующие два класса технологий:
Оперативные большие данные
К ним относятся такие системы, как MongoDB, которые предоставляют оперативные возможности для интерактивных рабочих нагрузок в реальном времени, когда данные в основном собираются и хранятся.
Системы NoSQL Big Data предназначены для использования преимуществ новых архитектур облачных вычислений, появившихся за последнее десятилетие, которые позволяют выполнять массовые вычисления недорого и эффективно. Это делает управление большими рабочими нагрузками намного проще, дешевле и быстрее внедряется.
Некоторые системы NoSQL могут обеспечить понимание шаблонов и тенденций на основе данных в реальном времени с минимальным кодированием и без необходимости в специалистах по данным и дополнительной инфраструктуре.
Аналитические Большие Данные
К ним относятся такие системы, как системы баз данных Massively Parallel Processing (MPP) и MapReduce, которые предоставляют аналитические возможности для ретроспективного и комплексного анализа, который может касаться большей части или всех данных.
MapReduce предоставляет новый метод анализа данных, который дополняет возможности, предоставляемые SQL, и систему, основанную на MapReduce, которую можно масштабировать с одного сервера до тысяч компьютеров высокого и низкого уровня.
Эти два класса технологий дополняют друг друга и часто используются вместе.
Операционные и Аналитические Системы
эксплуатационный | аналитический | |
---|---|---|
Задержка | 1 мс — 100 мс | 1 мин — 100 мин |
совпадение | 1000 — 100 000 | 1 — 10 |
Шаблон доступа | Пишет и читает | Читает |
Запросы | выборочный | неселективных |
Объем данных | эксплуатационный | ретроспективный |
Конечный пользователь | Покупатель | Ученый данных |
Технология | NoSQL | MapReduce, база данных MPP |
Проблемы с большими данными
Основные проблемы, связанные с большими данными, следующие:
- Сбор данных
- Курирование
- Место хранения
- поиск
- разделение
- Перечислить
- Анализ
- презентация
Для решения вышеперечисленных задач организации обычно пользуются помощью корпоративных серверов.