Учебники

3) Архитектура хранилища данных

Концепция хранилища данных

Основная концепция хранилища данных состоит в том, чтобы упростить для компании единую версию правды для принятия решений и прогнозирования. Хранилище данных — это информационная система, которая содержит исторические и коммутативные данные из одного или нескольких источников. Концепция хранилища данных, упрощает процесс отчетности и анализа организации.

Характеристики хранилища данных

Хранилище данных имеет следующие характеристики:

  • Предметно-ориентированная
  • интегрированный
  • Время-вариант
  • Нелетучий

Предметно-ориентированная

Хранилище данных является предметно-ориентированным, поскольку оно предлагает информацию по теме, а не текущую деятельность компаний. Этими предметами могут быть продажи, маркетинг, дистрибуция и т. Д.

Хранилище данных никогда не фокусируется на текущих операциях. Вместо этого он делает упор на моделирование и анализ данных для принятия решений . Он также обеспечивает простой и краткий обзор конкретной темы, исключая данные, которые не помогают поддерживать процесс принятия решения.

интегрированный

В хранилище данных интеграция означает установление общей единицы измерения для всех похожих данных из разнородной базы данных. Данные также должны храниться в хранилище данных в общем и общепринятом порядке.

Хранилище данных разрабатывается путем интеграции данных из различных источников, таких как мэйнфрейм, реляционные базы данных, плоские файлы и т. Д. Кроме того, оно должно поддерживать согласованные соглашения об именах, формат и кодирование.

Эта интеграция помогает в эффективном анализе данных. Должна быть обеспечена согласованность в соглашениях об именах, мерах атрибутов, структуре кодирования и т. Д. Рассмотрим следующий пример:

В приведенном выше примере есть три разных приложения, помеченные как A, B и C. Информация, хранящаяся в этих приложениях, — это пол, дата и баланс. Однако данные каждого приложения хранятся по-разному.

  • В приложении Поле гендерного типа хранит логические значения, такие как M или F
  • В Приложении B поле гендера является числовым значением,
  • В приложении C поле пола хранится в виде символьного значения.
  • То же самое в случае с датой и балансом

Однако после преобразования и очистки все эти данные хранятся в общем формате в хранилище данных.

Время-Variant

Временной горизонт для хранилища данных довольно большой по сравнению с операционными системами. Данные, собранные в хранилище данных, распознаются с определенным периодом и предоставляют информацию с исторической точки зрения. Он содержит элемент времени, явно или неявно.

Одно из таких мест, где дисперсия времени отображения данных в Datawarehouse, находится в структуре ключа записи. Каждый первичный ключ, содержащийся в DW, должен иметь явно или неявно элемент времени. Как день, неделя, месяц и т. Д.

Другой аспект временной дисперсии заключается в том, что после вставки данных в хранилище они не могут быть обновлены или изменены.

Нелетучий

Хранилище данных также является энергонезависимым, что означает, что предыдущие данные не стираются при вводе новых данных.

Данные доступны только для чтения и периодически обновляются. Это также помогает анализировать исторические данные и понимать, что и когда произошло. Не требует механизмов обработки транзакций, восстановления и управления параллелизмом.

Такие действия, как удаление, обновление и вставка, которые выполняются в рабочей среде приложения, в среде хранилища данных не учитываются. Только два типа операций с данными, выполняемых в хранилище данных,

  1. Загрузка данных
  2. Доступ к данным

Вот некоторые основные различия между приложением и хранилищем данных

Операционное приложение Хранилище данных
Сложная программа должна быть закодирована, чтобы убедиться, что процессы обновления данных поддерживают высокую целостность конечного продукта. Такого рода проблемы не возникают, потому что обновление данных не выполняется.
Данные размещаются в нормализованной форме для обеспечения минимальной избыточности. Данные не хранятся в нормализованном виде.
Технология, необходимая для поддержки проблем транзакций, восстановления данных, отката и разрешения, поскольку ее взаимоблокировка довольно сложна. Это предлагает относительную простоту в технологии.

Одноуровневая архитектура

Цель одного слоя — минимизировать объем хранимых данных. Эта цель состоит в том, чтобы удалить избыточность данных. Эта архитектура не часто используется на практике.

Двухуровневая архитектура

Двухслойная архитектура разделяет физически доступные источники и хранилище данных. Эта архитектура не расширяема и также не поддерживает большое количество конечных пользователей. Он также имеет проблемы с подключением из-за сетевых ограничений.

Трехуровневая архитектура

Это наиболее широко используемая архитектура.

Он состоит из верхнего, среднего и нижнего яруса.

  1. Нижний уровень: база данных серверов Datawarehouse в качестве нижнего уровня. Обычно это система реляционных баз данных. Данные очищаются, преобразуются и загружаются в этот слой с помощью внутренних инструментов.
  2. Средний уровень . Средний уровень в хранилище данных — это сервер OLAP, который реализован с использованием модели ROLAP или MOLAP. Для пользователя этот уровень приложения представляет собой абстрактное представление базы данных. Этот уровень также действует как посредник между конечным пользователем и базой данных.
  3. Верхний уровень . Верхний уровень — это уровень клиентского интерфейса. Верхний уровень — это инструменты и API, которые вы подключаете и извлекаете данные из хранилища данных. Это могут быть инструменты запросов, инструменты отчетности, инструменты управляемого запроса, инструменты анализа и инструменты интеллектуального анализа данных.

Компоненты хранилища данных

Хранилище данных основано на сервере RDBMS, который является центральным хранилищем информации, который окружен некоторыми ключевыми компонентами, чтобы сделать всю среду функциональной, управляемой и доступной

В основном хранилище данных состоит из пяти компонентов:

База данных хранилища данных

Центральная база данных является основой среды хранилища данных. Эта база данных реализована по технологии RDBMS. Хотя этот тип реализации ограничен тем фактом, что традиционная система RDBMS оптимизирована для обработки транзакционной базы данных, а не для хранилищ данных. Например, специальный запрос, объединение в несколько таблиц, агрегаты требуют значительных ресурсов и снижают производительность.

Следовательно, альтернативные подходы к базе данных используются, как указано ниже:

  • В хранилище данных реляционные базы данных развертываются параллельно для обеспечения масштабируемости. Параллельные реляционные базы данных также позволяют использовать совместно используемую память или модель без общего доступа в различных многопроцессорных конфигурациях или массово параллельных процессорах.
  • Новые структуры индекса используются для обхода сканирования реляционных таблиц и повышения скорости.
  • Использование многомерной базы данных (MDDB) для преодоления любых ограничений, которые накладываются из-за реляционной модели данных. Пример: Essbase от Oracle.

Инструменты поиска, сбора, очистки и преобразования (ETL)

Инструменты выбора, преобразования и миграции данных используются для выполнения всех преобразований, суммирования и всех изменений, необходимых для преобразования данных в унифицированный формат в хранилище данных. Их также называют инструментами извлечения, преобразования и загрузки (ETL).

Их функциональность включает в себя:

  • Анонимизировать данные в соответствии с нормативными положениями.
  • Исключение нежелательных данных в оперативных базах данных при загрузке в хранилище данных.
  • Поиск и замена общих имен и определений для данных, поступающих из разных источников.
  • Расчет итогов и полученных данных
  • В случае отсутствия данных заполните их значениями по умолчанию.
  • Дедуплицированные повторные данные, поступающие из нескольких источников данных.

Эти инструменты извлечения, преобразования и загрузки могут создавать задания cron, фоновые задания, программы Cobol, сценарии оболочки и т. Д., Которые регулярно обновляют данные в хранилище данных. Эти инструменты также полезны для поддержки метаданных.

Эти инструменты ETL должны решать проблемы гетерогенности баз данных и данных.

Метаданные

Название Meta Data предлагает некоторую технологическую концепцию высокого уровня. Тем не менее, это довольно просто. Метаданные — это данные о данных, которые определяют хранилище данных. Он используется для построения, обслуживания и управления хранилищем данных.

В архитектуре хранилища данных метаданные играют важную роль, поскольку они определяют источник, использование, значения и особенности данных хранилища данных. Он также определяет, как данные могут быть изменены и обработаны. Он тесно связан с хранилищем данных.

Например, строка в базе данных продаж может содержать:

4030 KJ732 299.90

Это бессмысленные данные, пока мы не сверимся с мета

  • Номер модели: 4030
  • Идентификатор торгового агента: KJ732
  • Общая сумма продаж $ 299,90

Следовательно, метаданные являются важными составляющими преобразования данных в знания.

Метаданные помогают ответить на следующие вопросы

  • Какие таблицы, атрибуты и ключи содержит хранилище данных?
  • Откуда поступили данные?
  • Сколько раз данные перезагружаются?
  • Какие преобразования были применены с очищением?

Метаданные можно разделить на следующие категории:

  1. Технические метаданные : этот вид метаданных содержит информацию о хранилище, которая используется разработчиками и администраторами хранилища данных.
  2. Бизнес-метаданные. Этот вид метаданных содержит детали, которые дают конечным пользователям простой способ понять информацию, хранящуюся в хранилище данных.

Инструменты запросов

Одним из основных объектов хранилищ данных является предоставление информации предприятиям для принятия стратегических решений. Инструменты запросов позволяют пользователям взаимодействовать с системой хранилища данных.

Эти инструменты делятся на четыре категории:

  1. Инструменты запросов и отчетов
  2. Инструменты разработки приложений
  3. Инструменты добычи данных
  4. Инструменты OLAP

1. Инструменты запросов и отчетов:

Инструменты запросов и отчетов можно разделить на

  • Инструменты отчетности
  • Инструменты управляемого запроса

Инструменты отчетности. Инструменты отчетности могут быть далее разделены на инструменты рабочей отчетности и средства для создания отчетов на рабочем столе.

  1. Авторы отчетов: этот вид инструментов отчетности — это инструменты, разработанные для конечных пользователей для их анализа.
  2. Производственная отчетность. Этот вид инструментов позволяет организациям создавать регулярные оперативные отчеты. Он также поддерживает пакетные задания большого объема, такие как печать и расчет. Некоторыми популярными инструментами отчетности являются Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Инструменты управляемого запроса:

Этот вид инструментов доступа помогает конечным пользователям устранять ошибки в базе данных, SQL и структуре базы данных, вставляя мета-слой между пользователями и базой данных.

2. Инструменты разработки приложений:

Иногда встроенные графические и аналитические инструменты не удовлетворяют аналитические потребности организации. В таких случаях пользовательские отчеты разрабатываются с использованием инструментов разработки приложений.

3. Инструменты добычи данных:

Интеллектуальный анализ данных — это процесс обнаружения значимых новых корреляций, паттернов и тенденций путем анализа больших объемов данных. Инструменты интеллектуального анализа данных используются для автоматизации этого процесса.

4. Инструменты OLAP:

Эти инструменты основаны на понятиях многомерной базы данных. Это позволяет пользователям анализировать данные, используя сложные и многомерные представления.

Хранилище данных Bus Architecture

Хранилище данных Шина определяет поток данных в вашем хранилище. Поток данных в хранилище данных может быть классифицирован как приток, восходящий поток, нисходящий поток, отток и мета-поток.

При проектировании Шины Данных необходимо учитывать общие измерения, факты по витринам данных.

Витрины данных

Киоск данных — это уровень доступа, который используется для передачи данных пользователям. Он представлен в качестве опции для хранилища данных большого размера, поскольку для его создания требуется меньше времени и денег. Тем не менее, нет стандартного определения витрины данных, отличающейся от человека к человеку.

Одним словом, Data mart является дочерней компанией хранилища данных. Стенд данных используется для разделения данных, которые создаются для определенной группы пользователей.

Витрины данных могут быть созданы в той же базе данных, что и Datawarehouse, или в физически отдельной базе данных.

Лучшие практики архитектуры хранилищ данных

Для разработки архитектуры хранилища данных вам необходимо следовать приведенным ниже рекомендациям:

  • Используйте модель данных, оптимизированную для поиска информации, которая может быть в размерном режиме, денормализованном или гибридном подходе.
  • Необходимо убедиться, что данные обрабатываются быстро и точно. В то же время вы должны использовать подход, который объединяет данные в единую версию правды.
  • Тщательно спроектируйте процесс сбора и очистки данных для хранилища данных.
  • Разработка архитектуры метаданных, которая позволяет обмениваться метаданными между компонентами хранилища данных
  • Подумайте о реализации модели ODS, когда потребность в поиске информации находится у основания пирамиды абстракции данных или когда требуется доступ к нескольким операционным источникам.
  • Следует убедиться, что модель данных интегрирована, а не просто консолидирована. В этом случае вы должны рассмотреть модель данных 3NF. Он также идеально подходит для приобретения инструментов ETL и очистки данных.

Резюме:

  • Хранилище данных — это информационная система, которая содержит исторические и коммутативные данные из одного или нескольких источников.
  • Хранилище данных является предметно-ориентированным, поскольку оно предлагает информацию о предмете вместо текущих операций организации.
  • В хранилище данных интеграция означает установление общей единицы измерения для всех аналогичных данных из разных баз данных.
  • Хранилище данных также является энергонезависимым, что означает, что предыдущие данные не стираются при вводе новых данных.
  • Datawarehouse — это вариант времени, поскольку данные в DW имеют большой срок хранения.
  • Есть 5 основных компонентов Datawarehouse. 1) База данных 2) Инструменты ETL 3) Метаданные 4) Инструменты запросов 5) DataMarts
  • Это четыре основные категории инструментов запросов: 1. Запрос и отчетность, инструменты 2. Инструменты разработки приложений, 3. Инструменты анализа данных 4. Инструменты OLAP
  • Инструменты сбора, преобразования и переноса данных используются для выполнения всех преобразований и суммирования.
  • В архитектуре хранилища данных метаданные играют важную роль, поскольку они определяют источник, использование, значения и особенности данных хранилища данных.