Учебники

Хранилище данных — терминология

В этой главе мы обсудим некоторые наиболее часто используемые термины в хранилищах данных.

Метаданные

Метаданные просто определяются как данные о данных. Данные, которые используются для представления других данных, называются метаданными. Например, индекс книги служит метаданными для содержания в книге. Другими словами, мы можем сказать, что метаданные — это обобщенные данные, которые приводят нас к подробным данным.

С точки зрения хранилища данных, мы можем определить метаданные следующим образом:

  • Метаданные — это дорожная карта к хранилищу данных.

  • Метаданные в хранилище данных определяют объекты хранилища.

  • Метаданные действуют как каталог. Этот каталог помогает системе поддержки принятия решений определить местонахождение хранилища данных.

Метаданные — это дорожная карта к хранилищу данных.

Метаданные в хранилище данных определяют объекты хранилища.

Метаданные действуют как каталог. Этот каталог помогает системе поддержки принятия решений определить местонахождение хранилища данных.

Хранилище метаданных

Хранилище метаданных является неотъемлемой частью системы хранилища данных. Он содержит следующие метаданные —

  • Бизнес-метаданные. Содержит информацию о владельце данных, определение бизнеса и изменяющиеся политики.

  • Операционные метаданные — включает в себя валюту данных и линии данных. Денежная единица данных относится к активным, архивным или очищенным данным. Линия данных означает историю перенесенных данных и применяемые к ним преобразования.

  • Данные для отображения из операционной среды в хранилище данных. Эти метаданные включают исходные базы данных и их содержимое, извлечение данных, разделение данных, правила очистки, преобразования, правила обновления и очистки данных.

  • Алгоритмы суммирования — включает алгоритмы измерений, данные о гранулярности, агрегации, суммировании и т. Д.

Бизнес-метаданные. Содержит информацию о владельце данных, определение бизнеса и изменяющиеся политики.

Операционные метаданные — включает в себя валюту данных и линии данных. Денежная единица данных относится к активным, архивным или очищенным данным. Линия данных означает историю перенесенных данных и применяемые к ним преобразования.

Данные для отображения из операционной среды в хранилище данных. Эти метаданные включают исходные базы данных и их содержимое, извлечение данных, разделение данных, правила очистки, преобразования, правила обновления и очистки данных.

Алгоритмы суммирования — включает алгоритмы измерений, данные о гранулярности, агрегации, суммировании и т. Д.

Куб данных

Куб данных помогает нам представлять данные в нескольких измерениях. Это определяется размерами и фактами. Измерения — это объекты, в отношении которых предприятие сохраняет записи.

Иллюстрация куба данных

Предположим, что компания хочет отслеживать записи о продажах с помощью хранилища данных о продажах относительно времени, позиции, филиала и местоположения. Эти размеры позволяют отслеживать ежемесячные продажи и в каком филиале были проданы товары. Существует таблица, связанная с каждым измерением. Эта таблица называется таблицей измерений. Например, таблица измерений «item» может иметь такие атрибуты, как item_name, item_type и item_brand.

В следующей таблице представлено двумерное представление данных продаж для компании с точки зрения времени, товара и местоположения.

куб данных 2D

Но здесь, в этой двумерной таблице, у нас есть записи только по времени и предмету. Продажи в Нью-Дели показаны с учетом времени и размеров товаров в соответствии с типом проданных товаров. Если мы хотим просмотреть данные о продажах с еще одним измерением, скажем, с измерением местоположения, то было бы полезно трехмерное представление. Трехмерное представление данных о продажах относительно времени, товара и местоположения показано в таблице ниже —

куб данных 3D

Приведенная выше трехмерная таблица может быть представлена ​​в виде трехмерного куба данных, как показано на следующем рисунке.

куб данных 3D

Data Mart

Витрины данных содержат подмножество общеорганизационных данных, которые полезны для определенных групп людей в организации. Другими словами, витрина данных содержит только те данные, которые относятся к конкретной группе. Например, витрина маркетинговых данных может содержать только данные, относящиеся к товарам, покупателям и продажам. Витрины данных ограничены предметами.

Что нужно помнить о витринах данных

  • Серверы на базе Windows или Unix / Linux используются для реализации витрин данных. Они реализованы на недорогих серверах.

  • Цикл реализации витрины данных измеряется в короткие периоды времени, то есть в неделях, а не в месяцах или годах.

  • Жизненный цикл витрин данных может быть сложным в долгосрочной перспективе, если их планирование и дизайн не являются общеорганизационными.

  • Витрины данных имеют небольшой размер.

  • Витрины данных настраиваются отделом.

  • Источником витрины данных является хранилище данных, имеющее структурную структуру.

  • Витрины данных являются гибкими.

Серверы на базе Windows или Unix / Linux используются для реализации витрин данных. Они реализованы на недорогих серверах.

Цикл реализации витрины данных измеряется в короткие периоды времени, то есть в неделях, а не в месяцах или годах.

Жизненный цикл витрин данных может быть сложным в долгосрочной перспективе, если их планирование и дизайн не являются общеорганизационными.

Витрины данных имеют небольшой размер.

Витрины данных настраиваются отделом.

Источником витрины данных является хранилище данных, имеющее структурную структуру.

Витрины данных являются гибкими.

На следующем рисунке показано графическое представление витрин данных.

витрина данных

Виртуальный склад

Вид на оперативное хранилище данных называется виртуальным хранилищем. Это легко построить виртуальный склад. Создание виртуального хранилища требует избыточных мощностей на оперативных серверах баз данных.