Учебники

1) Что такое большие данные

Чтобы понять «большие данные», вам сначала нужно знать

Что такое данные?

Количества, символы или символы, над которыми выполняются операции с помощью компьютера, которые могут храниться и передаваться в форме электрических сигналов и записываться на магнитные, оптические или механические носители записи.

Что такое большие данные?

Большие данные — это тоже данные,  но огромного размера . Большие данные — это термин, используемый для описания огромного объема данных, который растет со временем в геометрической прогрессии. Короче говоря, такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать.

В этом уроке вы узнаете,

Что такое большие данные

Примеры больших данных

Ниже приведены некоторые примеры больших данных.

Нью — Йоркская фондовая биржа  генерирует около  одного терабайта  новых торговых данных в день.

 Введение в БОЛЬШИЕ ДАННЫЕ: типы, характеристики и преимущества

Социальные сети

Статистика показывает, что более  500 терабайт  новых данных попадают в базы данных социальной сети  Facebook каждый день. Эти данные в основном генерируются с точки зрения загрузки фото и видео, обмена сообщениями, размещения комментариев и т. Д.

 Введение в БОЛЬШИЕ ДАННЫЕ: типы, характеристики и преимущества

Один  реактивный двигатель  может генерировать  10 + терабайт  данных за  30 минут  полета. При многих тысячах рейсов в день генерация данных достигает многих  петабайт.

 Введение в БОЛЬШИЕ ДАННЫЕ: типы, характеристики и преимущества

Типы больших данных

BigData ‘можно найти в трех формах:

  1. Структурированные
  2. неструктурированных
  3. Полуструктурированный

Структурированные

Любые данные, которые могут быть сохранены, доступны и обработаны в форме фиксированного формата, называются «структурированными» данными. За это время талант в области компьютерных наук достиг больших успехов в разработке методов работы с данными такого типа (где формат хорошо известен заранее), а также извлечении из них пользы. Однако в настоящее время мы предвидим проблемы, когда размер таких данных увеличивается в огромной степени, типичные размеры находятся в ярости нескольких зетабайтов.

Ты знаешь? 10 21  байт,  равный  1 зетабайту  или  одному миллиарду терабайт,  образует  зетабайт .

Глядя на эти цифры, можно легко понять, почему дается название Big Data, и представить себе проблемы, связанные с их хранением и обработкой.

Ты знаешь?  Данные, хранящиеся в системе управления реляционными базами данных, являются одним из примеров  «структурированных»  данных.

Примеры структурированных данных

Таблица «Сотрудник» в базе данных является примером структурированных данных

eMPLOYEE_ID  Имя сотрудника  Пол  отдел  Salary_In_lacs
2365  Раджеш Кулкарни  мужчина  финансов 650000
3398  Пратибха Джоши  женский  Администратор  650000
7465  Шушил Рой  мужчина  Администратор  +500000
7500  Шубходжит Дас  мужчина  финансов  +500000
7699  Прия Сане  женский  финансов  550000

неструктурированных

Любые данные с неизвестной формой или структурой классифицируются как неструктурированные данные. В дополнение к огромному размеру неструктурированные данные создают множество проблем с точки зрения их обработки для получения ценности из них. Типичным примером неструктурированных данных является гетерогенный источник данных, содержащий комбинацию простых текстовых файлов, изображений, видео и т. Д. Сейчас дневные организации имеют в своем распоряжении множество данных, но, к сожалению, они не знают, как извлечь из них выгоду, поскольку эти данные находятся в необработанном виде или в неструктурированном формате.

Примеры неструктурированных данных

Результат, возвращаемый поиском Google

 Введение в БОЛЬШИЕ ДАННЫЕ: типы, характеристики и преимущества

 Полуструктурированный

Полуструктурированные данные могут содержать обе формы данных. Мы можем видеть полуструктурированные данные как структурированные по форме, но на самом деле они не определены, например, с помощью определения таблицы в реляционной СУБД. Примером полуструктурированных данных являются данные, представленные в файле XML.

Примеры полуструктурированных данных

Персональные данные хранятся в файле XML

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

Рост данных за последние годы

Введение в БОЛЬШИЕ ДАННЫЕ

 Обратите внимание, что неструктурированные данные веб-приложения состоят из файлов журналов, файлов истории транзакций и т. Д. Системы OLTP созданы для работы со структурированными данными, в которых данные хранятся в отношениях (таблицах).

Характеристики больших данных

(i) Объем —  само название «Большие данные» связано с огромным размером. Размер данных играет очень важную роль в определении ценности данных. Кроме того, то, могут ли конкретные данные действительно рассматриваться как большие данные или нет, зависит от объема данных. Следовательно,  «объем»  — это одна из характеристик, которую необходимо учитывать при работе с большими данными.

(ii) Разнообразие  . Следующим аспектом больших данных является их  разнообразие .

Разнообразие относится к разнородным источникам и природе данных, как структурированных, так и неструктурированных. В прежние времена электронные таблицы и базы данных были единственными источниками данных, которые рассматривались большинством приложений. В настоящее время в приложениях для анализа также рассматриваются данные в виде электронных писем, фотографий, видео, устройств мониторинга, файлов PDF, аудио и т. Д. Это разнообразие неструктурированных данных создает определенные проблемы для хранения, анализа и анализа данных.

(iii) Скорость —  термин  «скорость»  относится к скорости генерации данных. Скорость, с которой данные генерируются и обрабатываются для удовлетворения потребностей, определяет реальный потенциал данных.

Big Data Velocity имеет дело со скоростью, с которой данные поступают из таких источников, как бизнес-процессы, журналы приложений, сети и сайты социальных сетей, датчики, мобильные устройства и т. Д. Поток данных огромен и непрерывен.

(iv) Изменчивость.  Это относится к несоответствиям, которые могут время от времени проявляться данными, что затрудняет процесс эффективной обработки и управления данными.

Преимущества обработки больших данных

Способность обрабатывать большие данные дает множество преимуществ, таких как:

    • Предприятия могут использовать внешний интеллект при принятии решений

Доступ к социальным данным из поисковых систем и сайтов, таких как Facebook, Twitter, позволяет организациям отлаживать свои бизнес-стратегии.

    • Улучшенное обслуживание клиентов

Традиционные системы обратной связи с клиентами заменяются новыми системами, разработанными с использованием технологий больших данных. В этих новых системах для обработки и оценки ответов потребителей используются технологии обработки больших данных и естественного языка.

    • Раннее выявление риска для продукта / услуги, если таковые имеются
    • Лучшая операционная эффективность

Технологии больших данных можно использовать для создания промежуточной зоны или зоны посадки для новых данных перед определением того, какие данные следует перенести в хранилище данных. Кроме того, такая интеграция технологий больших данных и хранилища данных помогает организации разгружать редко используемые данные.

Резюме

  • Большие данные определяются как данные огромного размера. Bigdata — это термин, используемый для описания огромного размера данных, которые растут в геометрической прогрессии со временем.
  • Примеры генерации больших данных включают биржи, сайты социальных сетей, реактивные двигатели и т. Д.
  • Большие данные могут быть 1) структурированными, 2) неструктурированными, 3) полуструктурированными
  • Объем, разнообразие, скорость и изменчивость — это несколько характеристик Bigdata
  • Улучшенное обслуживание клиентов, лучшая операционная эффективность, лучшее принятие решений — вот некоторые преимущества Bigdata