У нас есть фиксированное число операций, которые должны применяться к оперативным базам данных, и у нас есть четко определенные методы, такие как использование нормализованных данных , сохранение размера таблицы и т. Д. Эти методы подходят для предоставления решения. Но в случае систем поддержки принятия решений мы не знаем, какие запросы и операции необходимо выполнить в будущем. Поэтому методы, применяемые к оперативным базам данных, не подходят для хранилищ данных.
В этой главе мы поговорим о том, как создавать решения для хранилищ данных на основе передовых технологий открытых систем, таких как Unix и реляционные базы данных.
Поток процессов в хранилище данных
Существует четыре основных процесса, которые способствуют созданию хранилища данных:
- Извлеките и загрузите данные.
- Очистка и преобразование данных.
- Резервное копирование и архивирование данных.
- Управление запросами и направление их в соответствующие источники данных.
Процесс извлечения и загрузки
Извлечение данных берет данные из исходных систем. Загрузка данных берет извлеченные данные и загружает их в хранилище данных.
Примечание. Перед загрузкой данных в хранилище данных информация, извлеченная из внешних источников, должна быть реконструирована.
Управление процессом
Управление процессом включает определение того, когда начинать извлечение данных, и проверку согласованности данных. Процесс управления гарантирует, что инструменты, логические модули и программы выполняются в правильной последовательности и в правильное время.
Когда начинать извлечение
При извлечении данные должны находиться в согласованном состоянии, т. Е. Хранилище данных должно представлять пользователю единую согласованную версию информации.
Например, в хранилище данных профилирования клиентов в телекоммуникационном секторе нелогично объединять список клиентов в среду в 8 часов вечера из базы данных клиентов с событиями подписки клиентов до 20 часов вечера во вторник. Это будет означать, что мы находим клиентов, для которых нет связанных подписок.
Загрузка данных
После извлечения данных они загружаются во временное хранилище данных, где они очищаются и становятся согласованными.
Примечание. Проверки согласованности выполняются только тогда, когда все источники данных загружены во временное хранилище данных.
Очистить и преобразовать процесс
Как только данные извлечены и загружены во временное хранилище данных, настало время выполнить очистку и преобразование. Вот список шагов, вовлеченных в Очистку и Преобразование —
- Очистить и преобразовать загруженные данные в структуру
- Разделите данные
- агрегирование
Очистить и преобразовать загруженные данные в структуру
Очистка и преобразование загруженных данных помогает ускорить запросы. Это может быть сделано путем согласования данных —
- внутри себя.
- с другими данными в том же источнике данных.
- с данными в других исходных системах.
- с существующими данными, присутствующими на складе.
Преобразование включает в себя преобразование исходных данных в структуру. Структурирование данных повышает производительность запросов и снижает эксплуатационные расходы. Данные, содержащиеся в хранилище данных, должны быть преобразованы для поддержки требований к производительности и контроля текущих эксплуатационных расходов.
Разделите данные
Это позволит оптимизировать производительность оборудования и упростить управление хранилищем данных. Здесь мы разбиваем каждую таблицу фактов на несколько отдельных разделов.
агрегирование
Агрегация необходима для ускорения общих запросов. Агрегация основывается на том факте, что наиболее распространенные запросы будут анализировать подмножество или агрегацию подробных данных.
Резервное копирование и архивирование данных
Чтобы восстановить данные в случае потери данных, сбоя программного обеспечения или аппаратного сбоя, необходимо регулярно выполнять резервное копирование. Архивирование включает в себя удаление старых данных из системы в формате, который позволяет быстро восстанавливать их при необходимости.
Например, в хранилище данных анализа розничных продаж может потребоваться хранить данные в течение 3 лет, а последние 6 месяцев данные хранятся в сети. В таком сценарии часто требуется, чтобы иметь возможность делать ежемесячные сравнения для этого года и прошлого года. В этом случае нам требуется восстановить некоторые данные из архива.
Процесс управления запросами
Этот процесс выполняет следующие функции —
-
управляет запросами.
-
помогает ускорить время выполнения запроса.
-
направляет запросы к их наиболее эффективным источникам данных.
-
гарантирует, что все системные источники используются наиболее эффективно.
-
отслеживает фактические профили запросов.
управляет запросами.
помогает ускорить время выполнения запроса.
направляет запросы к их наиболее эффективным источникам данных.
гарантирует, что все системные источники используются наиболее эффективно.
отслеживает фактические профили запросов.
Информация, сгенерированная в этом процессе, используется процессом управления складом, чтобы определить, какие агрегаты генерировать. Этот процесс обычно не работает во время обычной загрузки информации в хранилище данных.