Учебники

Hadoop — Обзор больших данных

Из-за появления новых технологий, устройств и средств связи, таких как сайты социальных сетей, объем данных, производимых человечеством, быстро растет с каждым годом. Объем данных, произведенных нами с начала времен до 2003 года, составил 5 миллиардов гигабайт. Если вы накапливаете данные в виде дисков, они могут заполнить все футбольное поле. Одна и та же сумма создавалась каждые два дня в 2011 году и каждые десять минут в 2013 году . Этот показатель по-прежнему чрезвычайно растет. Хотя вся эта информация имеет смысл и может быть полезной при обработке, ею пренебрегают.

Что такое большие данные?

Большие данные — это набор больших наборов данных, которые не могут быть обработаны с использованием традиционных вычислительных технологий. Это не отдельная техника или инструмент, скорее, она стала полным предметом, который включает в себя различные инструменты, технологии и структуры.

Что входит в большие данные?

Большие данные включают в себя данные, произведенные различными устройствами и приложениями. Ниже приведены некоторые из полей, которые подпадают под зонтик больших данных.

  • Данные черного ящика — это компонент вертолета, самолетов, самолетов и т. Д. Он фиксирует голоса летного экипажа, записи микрофонов и наушников и информацию о характеристиках самолета.

  • Данные социальных сетей — социальные сети, такие как Facebook и Twitter, содержат информацию и мнения, опубликованные миллионами людей по всему миру.

  • Данные фондовой биржи — Данные фондовой биржи содержат информацию о решениях «купить» и «продать», принятых в отношении акций различных компаний, принятых клиентами.

  • Данные энергосистемы — данные энергосистемы содержат информацию, потребляемую конкретным узлом относительно базовой станции.

  • Транспортные данные — Транспортные данные включают модель, вместимость, расстояние и доступность транспортного средства.

  • Данные поисковой системы — поисковые системы извлекают много данных из разных баз данных.

Данные черного ящика — это компонент вертолета, самолетов, самолетов и т. Д. Он фиксирует голоса летного экипажа, записи микрофонов и наушников и информацию о характеристиках самолета.

Данные социальных сетей — социальные сети, такие как Facebook и Twitter, содержат информацию и мнения, опубликованные миллионами людей по всему миру.

Данные фондовой биржи — Данные фондовой биржи содержат информацию о решениях «купить» и «продать», принятых в отношении акций различных компаний, принятых клиентами.

Данные энергосистемы — данные энергосистемы содержат информацию, потребляемую конкретным узлом относительно базовой станции.

Транспортные данные — Транспортные данные включают модель, вместимость, расстояние и доступность транспортного средства.

Данные поисковой системы — поисковые системы извлекают много данных из разных баз данных.

Большие данные

Таким образом, большие данные включают в себя огромный объем, высокую скорость и расширяемое разнообразие данных. Данные в нем будут трех типов.

  • Структурированные данные — реляционные данные.

  • Полуструктурированные данные — данные XML.

  • Неструктурированные данные — Word, PDF, Text, Media Logs.

Структурированные данные — реляционные данные.

Полуструктурированные данные — данные XML.

Неструктурированные данные — Word, PDF, Text, Media Logs.

Преимущества больших данных

  • Используя информацию, хранящуюся в социальной сети, такой как Facebook, маркетинговые агентства узнают о реакции на свои кампании, рекламные акции и другие рекламные средства.

  • Используя информацию в социальных сетях, такую ​​как предпочтения и восприятие продукта потребителями, производственные компании и розничные организации планируют их производство.

  • Используя данные, относящиеся к предыдущей истории болезни пациентов, больницы обеспечивают лучшее и быстрое обслуживание.

Используя информацию, хранящуюся в социальной сети, такой как Facebook, маркетинговые агентства узнают о реакции на свои кампании, рекламные акции и другие рекламные средства.

Используя информацию в социальных сетях, такую ​​как предпочтения и восприятие продукта потребителями, производственные компании и розничные организации планируют их производство.

Используя данные, относящиеся к предыдущей истории болезни пациентов, больницы обеспечивают лучшее и быстрое обслуживание.

Технологии больших данных

Технологии больших данных важны для обеспечения более точного анализа, который может привести к более конкретному принятию решений, что приведет к повышению операционной эффективности, снижению затрат и снижению рисков для бизнеса.

Чтобы использовать возможности больших данных, вам потребуется инфраструктура, которая может управлять и обрабатывать огромные объемы структурированных и неструктурированных данных в режиме реального времени и защищать конфиденциальность и безопасность данных.

Для обработки больших данных на рынке существуют различные технологии от разных поставщиков, включая Amazon, IBM, Microsoft и т. Д. Изучая технологии обработки больших данных, мы рассмотрим следующие два класса технологий:

Оперативные большие данные

К ним относятся такие системы, как MongoDB, которые предоставляют оперативные возможности для интерактивных рабочих нагрузок в реальном времени, когда данные в основном собираются и хранятся.

Системы NoSQL Big Data предназначены для использования преимуществ новых архитектур облачных вычислений, появившихся за последнее десятилетие, которые позволяют выполнять массовые вычисления недорого и эффективно. Это делает управление большими рабочими нагрузками намного проще, дешевле и быстрее внедряется.

Некоторые системы NoSQL могут обеспечить понимание шаблонов и тенденций на основе данных в реальном времени с минимальным кодированием и без необходимости в специалистах по данным и дополнительной инфраструктуре.

Аналитические Большие Данные

К ним относятся такие системы, как системы баз данных Massively Parallel Processing (MPP) и MapReduce, которые предоставляют аналитические возможности для ретроспективного и комплексного анализа, который может касаться большей части или всех данных.

MapReduce предоставляет новый метод анализа данных, который дополняет возможности, предоставляемые SQL, и систему, основанную на MapReduce, которую можно масштабировать с одного сервера до тысяч компьютеров высокого и низкого уровня.

Эти два класса технологий дополняют друг друга и часто используются вместе.

Операционные и Аналитические Системы

эксплуатационный аналитический
Задержка 1 мс — 100 мс 1 мин — 100 мин
совпадение 1000 — 100 000 1 — 10
Шаблон доступа Пишет и читает Читает
Запросы выборочный неселективных
Объем данных эксплуатационный ретроспективный
Конечный пользователь Покупатель Ученый данных
Технология NoSQL MapReduce, база данных MPP

Проблемы с большими данными

Основные проблемы, связанные с большими данными, следующие:

  • Сбор данных
  • Курирование
  • Место хранения
  • поиск
  • разделение
  • Перечислить
  • Анализ
  • презентация

Для решения вышеперечисленных задач организации обычно пользуются помощью корпоративных серверов.