Учебники

Agile Data Science — Обработка данных в Agile

В этой главе мы сосредоточимся на разнице между структурированными, полуструктурированными и неструктурированными данными.

Структурированные данные

Структурированные данные относятся к данным, хранящимся в формате SQL в таблице со строками и столбцами. Он включает в себя реляционный ключ, который отображается в предварительно разработанные поля. Структурированные данные используются в большем масштабе.

Структурированные данные представляют только 5-10% всех данных информатики.

Полуструктурированные данные

Полуструктурированные данные включают в себя данные, которые не находятся в реляционной базе данных. Они включают в себя некоторые из организационных свойств, которые облегчают анализ. Он включает в себя тот же процесс для хранения их в реляционной базе данных. Примерами полуструктурированной базы данных являются файлы CSV, документы XML и JSON. Базы данных NoSQL считаются полуструктурированными.

Неструктурированные данные

Неструктурированные данные представляют 80 процентов данных. Он часто включает в себя текстовый и мультимедийный контент. Лучшие примеры неструктурированных данных включают аудиофайлы, презентации и веб-страницы. Примерами неструктурированных данных, создаваемых машиной, являются спутниковые изображения, научные данные, фотографии и видео, данные радара и гидролокатора.

Спутниковые изображения

Вышеуказанная структура пирамиды специально фокусируется на объеме данных и соотношении, на котором они разбросаны.

Квази-структурированные данные отображаются как тип между неструктурированными и полуструктурированными данными. В этом руководстве мы сосредоточимся на полуструктурированных данных, которые полезны для гибкой методологии и исследований в области данных.

Полуструктурированные данные не имеют формальной модели данных, но имеют очевидную, самоописывающуюся структуру и структуру, которые вырабатываются в результате ее анализа.