На современном конкурентном рынке наиболее успешные компании быстро реагируют на изменения и возможности рынка. Требование быстрого реагирования заключается в эффективном и действенном использовании данных и информации. «Хранилище данных» — это центральное хранилище данных, организованное по категориям для поддержки лиц, принимающих решения в организации. После того, как данные сохранены в хранилище данных, они могут быть доступны для анализа.
Термин «Хранилище данных» был впервые изобретен Биллом Инмоном в 1990 году. По его словам, «Хранилище данных представляет собой предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных для поддержки процесса принятия решений руководством».
Ральф Кимбалл дал определение хранилища данных на основе его функциональных возможностей. Он сказал: «Хранилище данных — это копия данных транзакции, специально структурированная для запросов и анализа».
Хранилище данных (DW или DWH) — это система, используемая для анализа данных и отчетности. Это репозитории, которые сохраняют данные из одного или нескольких разнородных источников данных. Они хранят как текущие, так и исторические данные и используются для создания аналитических отчетов. DW можно использовать для создания интерактивных информационных панелей для высшего руководства.
Например, аналитические отчеты могут содержать данные для квартальных сравнений или для ежегодного сравнения отчетов о продажах для компании.
Данные в DW поступают из нескольких операционных систем, таких как продажи, управление персоналом, маркетинг, управление складом и т. Д. Они содержат исторические данные из разных систем транзакций, но могут также включать данные из других источников. DW используется для отделения рабочей нагрузки по обработке и анализу данных от рабочей нагрузки транзакции и позволяет объединять данные из нескольких источников данных.
Потребность в хранилище данных
Например, у вас есть агентство по ипотечному кредитованию, где данные поступают из нескольких приложений SAP / не-SAP, таких как маркетинг, продажи, ERP, HRM и т. Д. Эти данные извлекаются, преобразуются и загружаются в DW. Если вам необходимо сравнивать продажи продукта на квартальной / годовой основе, вы не можете использовать оперативную базу данных, так как это приведет к зависанию системы транзакций. Вот где возникает необходимость использования DW.
Характеристики хранилища данных
Некоторые из ключевых характеристик DW —
- Используется для отчетности и анализа данных.
- Он предоставляет центральное хранилище с данными, интегрированными из одного или нескольких источников.
- Хранит текущие и исторические данные.
Хранилище данных против транзакционной системы
Ниже приводятся некоторые различия между хранилищем данных и операционной базой данных (система транзакций).
-
Транзакционная система предназначена для известных рабочих нагрузок и транзакций, таких как обновление записи пользователя, поиск записи и т. Д. Однако транзакции DW более сложны и представляют общую форму данных.
-
Транзакционная система содержит текущие данные организации, тогда как DW обычно содержит исторические данные.
-
Транзакционная система поддерживает параллельную обработку нескольких транзакций. Механизмы контроля и восстановления параллелизма необходимы для поддержания согласованности базы данных.
-
Оперативный запрос к базе данных позволяет считывать и изменять операции (удалять и обновлять), тогда как для запроса OLAP требуется только доступ только для чтения к сохраненным данным (оператор select).
-
DW включает в себя очистку данных, интеграцию данных и консолидацию данных.
Транзакционная система предназначена для известных рабочих нагрузок и транзакций, таких как обновление записи пользователя, поиск записи и т. Д. Однако транзакции DW более сложны и представляют общую форму данных.
Транзакционная система содержит текущие данные организации, тогда как DW обычно содержит исторические данные.
Транзакционная система поддерживает параллельную обработку нескольких транзакций. Механизмы контроля и восстановления параллелизма необходимы для поддержания согласованности базы данных.
Оперативный запрос к базе данных позволяет считывать и изменять операции (удалять и обновлять), тогда как для запроса OLAP требуется только доступ только для чтения к сохраненным данным (оператор select).
DW включает в себя очистку данных, интеграцию данных и консолидацию данных.
DW имеет трехуровневую архитектуру — уровень источника данных, уровень интеграции и уровень представления. На следующей диаграмме показана общая архитектура системы хранилища данных.
Типы Системы Хранилищ Данных
Ниже приведены типы системы DW —
- Data Mart
- Аналитическая обработка онлайн (OLAP)
- Онлайн обработка транзакций (OLTP)
- Прогнозный анализ
Data Mart
Data Mart — это самая простая форма DW, которая обычно фокусируется на одной функциональной области, такой как продажи, финансы или маркетинг. Следовательно, витрина данных обычно получает данные только из нескольких источников данных.
Источниками могут быть внутренняя система транзакций, центральное хранилище данных или приложение внешнего источника данных. Денормализация является нормой для методов моделирования данных в этой системе.
Аналитическая обработка онлайн (OLAP)
Система OLAP содержит меньшее количество транзакций, но включает сложные вычисления, такие как использование агрегаций — сумма, количество, среднее и т. Д.
Что такое агрегация?
Мы сохраняем таблицы с агрегированными данными, такими как годовые (1 строка), квартальные (4 строки), ежемесячные (12 строк), и теперь мы хотим сравнить данные, например, будет обрабатываться только 1 строка в год. Однако в неагрегированных данных все строки будут обработаны.
OLAP-система обычно хранит данные в многомерных схемах, таких как схемы Star, схемы Galaxy (таблицы Fact и Dimensional объединяются в логическом порядке).
В системе OLAP время ответа на выполнение запроса является мерой эффективности. Приложения OLAP широко используются методами Data Mining для получения данных из систем OLAP. Базы данных OLAP хранят агрегированные исторические данные в многомерных схемах. В системах OLAP задержка данных составляет несколько часов по сравнению с витринами данных, где задержка обычно приближается к нескольким дням.
Онлайн обработка транзакций (OLTP)
Система OLTP известна большим количеством коротких онлайн-транзакций, таких как вставка, обновление, удаление и т. Д. Системы OLTP обеспечивают быструю обработку запросов, а также обеспечивают целостность данных в среде с множественным доступом.
Для систем OLTP эффективность измеряется количеством транзакций, обрабатываемых в секунду. Системы OLTP обычно содержат только текущие данные. Схема, используемая для хранения транзакционных баз данных, является моделью сущностей. Нормализация используется для методов моделирования данных в системе OLTP.
OLTP против OLAP
На следующем рисунке показаны основные различия между OLTP и системой OLAP.
Индексы. В системе OLTP существует всего несколько индексов, тогда как в системе OLAP существует множество индексов для оптимизации производительности.
Объединения — в системе OLTP большое количество объединений и данных нормализуется; тем не менее, в системе OLAP меньше соединений и ненормализовано.
Агрегация. В системе OLTP данные не агрегируются, тогда как в базе данных OLAP используется больше агрегаций.