Учебники

16) Озеро данных против хранилища данных

Что такое хранилище данных?

Хранилище данных — это сочетание технологий и компонентов, которое позволяет стратегически использовать данные. Это метод сбора и управления данными из различных источников для предоставления значимой бизнес-информации.

Это электронное хранилище большого объема информации, предназначенное для бизнеса и предназначенное для обработки запросов и анализа вместо обработки транзакций. Это процесс преобразования данных в информацию.

Что такое Data Lake?

Data Lake — это хранилище данных, которое может хранить большое количество структурированных, полуструктурированных и неструктурированных данных. Это место для хранения всех типов данных в собственном формате без фиксированных ограничений на размер учетной записи или файл. Он предлагает большое количество данных для повышения аналитической производительности и встроенной интеграции.

Data Lake похожа на большой контейнер, который очень похож на настоящее озеро и реки. Точно так же, как в озере есть несколько притоков, озеро данных содержит структурированные данные, неструктурированные данные, от машины к машине, журналы, проходящие в режиме реального времени.

Концепция хранилища данных:

Хранилище данных хранит данные в файлах или папках, что помогает систематизировать и использовать данные для принятия стратегических решений. Эта система хранения также дает многомерное представление атомарных и сводных данных. Важные функции, которые необходимы для выполнения:

  1. Извлечение данных
  2. Очистка данных
  3. Преобразование данных
  4. Загрузка и обновление данных

Концепция озера данных:

Data Lake — это хранилище данных большого размера, в котором хранится большое количество необработанных данных в исходном формате до тех пор, пока они не потребуются. Каждый элемент данных в озере данных получает уникальный идентификатор и помечается набором расширенных тегов метаданных. Он предлагает широкий спектр аналитических возможностей.

Основное различие между озером данных и хранилищем данных

Вот ключевые различия между двумя терминами, связанными с данными, в упомянутых аспектах:

параметры Озеро данных Хранилище данных
Место хранения В озере данных все данные хранятся независимо от источника и его структуры. Данные хранятся в необработанном виде. Он трансформируется только тогда, когда он готов к использованию. Хранилище данных будет состоять из данных, извлеченных из транзакционных систем, или данных, которые состоят из количественных метрик с их атрибутами. Данные очищены и преобразованы
история Технологии больших данных, используемые в озерах данных, являются относительно новыми. Концепция хранилища данных, в отличие от больших данных, использовалась десятилетиями.
Сбор данных Захватывает все виды данных и структур, полуструктурированных и неструктурированных в исходном виде из исходных систем. Захватывает структурированную информацию и организует ее в схемы, определенные для целей хранилища данных
Хронология данных Данные озера могут сохранять все данные. Это включает в себя не только данные, которые используются, но и данные, которые могут быть использованы в будущем. Кроме того, данные хранятся на все времена, чтобы вернуться в прошлое и сделать анализ. В процессе разработки хранилища данных значительное время уходит на анализ различных источников данных.
пользователей Озеро данных идеально подходит для пользователей, которые занимаются глубоким анализом. К таким пользователям относятся исследователи данных, которым необходимы передовые аналитические инструменты с такими возможностями, как прогнозное моделирование и статистический анализ. Хранилище данных идеально подходит для оперативных пользователей, потому что оно хорошо структурировано, легко в использовании и понимании.
Затраты на хранение Хранение данных в технологиях больших данных относительно недорого, чем хранение данных в хранилище данных. Хранение данных в хранилище данных требует больших затрат времени и средств.
задача Данные озера могут содержать все данные и типы данных; это дает пользователям возможность доступа к данным до процесса преобразования, очистки и структурирования. Хранилища данных могут дать представление о предварительно определенных вопросах для предварительно определенных типов данных.
Время обработки Озера данных предоставляют пользователям доступ к данным до того, как они будут преобразованы, очищены и структурированы. Таким образом, это позволяет пользователям быстрее получить результат по сравнению с традиционным хранилищем данных. Хранилища данных дают представление о заранее определенных вопросах для предварительно определенных типов данных. Таким образом, любые изменения в хранилище данных требуют больше времени.
Положение схемы Как правило, схема определяется после сохранения данных. Это обеспечивает высокую гибкость и простоту сбора данных, но требует работы в конце процесса. Обычно схема определяется перед сохранением данных. Требует работы в начале процесса, но обеспечивает производительность, безопасность и интеграцию.
Обработка данных Data Lakes использует процесс ELT (Extract Load Transform). Хранилище данных использует традиционный процесс ETL (Extract Transform Load).
Пожаловаться Данные хранятся в необработанном виде. Он трансформируется только тогда, когда он готов к использованию. Основная претензия к хранилищам данных — это невозможность или проблема, возникающая при попытке внести в них изменения.
Ключевые преимущества Они объединяют различные типы данных, чтобы задавать совершенно новые вопросы, поскольку эти пользователи вряд ли будут использовать хранилища данных, потому что им, возможно, придется выйти за пределы его возможностей. Большинство пользователей в организации работают. Пользователям такого типа важны только отчеты и ключевые показатели производительности.

КЛЮЧЕВАЯ РАЗНИЦА

  • Data Lake хранит все данные независимо от источника и его структуры, тогда как Data Warehouse хранит данные в количественных показателях с их атрибутами.
  • Data Lake — это хранилище, в котором хранятся огромные структурированные, полуструктурированные и неструктурированные данные, в то время как Data Warehouse сочетает в себе технологии и компоненты, которые позволяют стратегически использовать данные.
  • Data Lake определяет схему после сохранения данных, тогда как Data Warehouse определяет схему до сохранения данных.
  • Data Lake использует процесс ELT (Извлечение преобразования нагрузки), в то время как хранилище данных использует процесс ETL (Извлечение преобразования преобразования).
  • Data Lake идеально подходит для тех, кто хочет провести углубленный анализ, а Data Warehouse — для действующих пользователей.