Что такое размерное моделирование?
DIMENSIONAL MODELING (DM) — это метод структуры данных, оптимизированный для хранения данных в хранилище данных. Целью размерной модели является оптимизация базы данных для быстрого поиска данных. Концепция размерного моделирования была разработана Ральфом Кимбаллом и состоит из таблиц «факт» и «измерение».
Размерная модель предназначена для чтения, суммирования, анализа числовой информации, такой как значения, сальдо, подсчеты, веса и т. Д. В хранилище данных. Напротив, реляционные модели оптимизированы для добавления, обновления и удаления данных в системе онлайн-транзакций в реальном времени.
Эти размерные и реляционные модели имеют свой уникальный способ хранения данных, который имеет определенные преимущества.
Например, в реляционном режиме модели нормализации и ER уменьшают избыточность данных. Напротив, многомерная модель упорядочивает данные таким образом, чтобы легче было извлекать информацию и генерировать отчеты.
Следовательно, размерные модели используются в системах хранилищ данных и плохо подходят для реляционных систем.
В этом уроке вы узнаете
- Элементы размерной модели данных
- Факт
- измерение
- Атрибуты
- Таблица фактов
- Таблица размеров
- Шаги размерного моделирования
- Шаг 1) Определите бизнес-процесс
- Шаг 2) Определите зерно
- Шаг 3) Определите размеры
- Шаг 4) Определите факт
- Шаг 5) Построить схему
- Правила для размерного моделирования
- Преимущества размерного моделирования
Элементы размерной модели данных
Факт
Факты — это измерения / метрики или факты вашего бизнес-процесса. Для бизнес-процесса продаж измерением будет квартальный номер продаж
измерение
Измерение обеспечивает контекст, окружающий событие бизнес-процесса. Проще говоря, они дают, кто, что, где факт. В бизнес-процессе «Продажи» для фактического ежеквартального объема продаж измерения будут
- Кто — имена клиентов
- Где — Расположение
- Что — Название продукта
Другими словами, измерение — это окно для просмотра информации в фактах.
Атрибуты
Атрибуты — это различные характеристики измерения.
В измерении Location атрибуты могут быть
- государственный
- Страна
- Почтовый индекс и т. Д.
Атрибуты используются для поиска, фильтрации или классификации фактов. Таблицы измерений содержат атрибуты
Таблица фактов
Таблица фактов — это первичная таблица в размерной модели.
Таблица фактов содержит
- Измерения / факты
- Внешний ключ таблицы измерений
Таблица размеров
- Таблица измерений содержит измерения факта.
- Они присоединяются к таблице фактов через внешний ключ.
- Таблицы измерений являются ненормализованными таблицами.
- Атрибутами измерения являются различные столбцы в таблице измерений.
- Измерения предлагают описательные характеристики фактов с помощью их атрибутов
- Не задано ограничение для заданного количества измерений
- Измерение также может содержать одно или несколько иерархических отношений
Шаги размерного моделирования
Точность создания вашего Dimensional моделирования определяет успех вашей реализации хранилища данных. Вот шаги для создания модели измерения
- Определить бизнес-процесс
- Определить зерно (уровень детализации)
- Определить размеры
- Определить факты
- Строй Звезда
Модель должна описывать «Почему», «Сколько», «Когда», «Где», «Кто» и «Что» в вашем бизнес-процессе.
Шаг 1) Определите бизнес-процесс
Определение фактического бизнес-процесса, который должен охватывать хранилище данных. Это может быть маркетинг, продажи, отдел кадров и т. Д. В соответствии с потребностями организации в анализе данных. Выбор бизнес-процесса также зависит от качества данных, доступных для этого процесса. Это самый важный шаг процесса моделирования данных, и в этом случае сбой будет иметь каскадные и непоправимые дефекты.
Чтобы описать бизнес-процесс, вы можете использовать обычный текст или использовать базовую нотацию моделирования бизнес-процессов (BPMN) или унифицированный язык моделирования (UML).
Шаг 2) Определите зерно
Зерно описывает уровень детализации для бизнес-проблемы / решения. Это процесс определения самого низкого уровня информации для любой таблицы в вашем хранилище данных. Если таблица содержит данные о продажах за каждый день, то это должна быть ежедневная детализация. Если таблица содержит данные об общих продажах за каждый месяц, то она имеет ежемесячную детализацию.
На этом этапе вы отвечаете на такие вопросы, как
- Нужно ли нам хранить все доступные продукты или только несколько видов продуктов? Это решение основано на бизнес-процессах, выбранных для Datawarehouse.
- Храним ли мы информацию о продаже продукта ежемесячно, еженедельно, ежедневно или ежечасно? Это решение зависит от характера отчетов, запрашиваемых руководителями.
- Как два вышеуказанных варианта влияют на размер базы данных?
Пример зерна:
Генеральный директор MNC хочет ежедневно узнавать о продажах конкретных продуктов в разных местах.
Таким образом, зерно — это «информация о продаже товара по местоположению по дням».
Шаг 3) Определите размеры
Измерения — это существительные, такие как дата, магазин, инвентарь и т. Д. В этих измерениях должны храниться все данные. Например, измерение даты может содержать такие данные, как год, месяц и день недели.
Пример размеров:
Генеральный директор MNC хочет ежедневно узнавать о продажах конкретных продуктов в разных местах.
Размеры: продукт, местоположение и время
Атрибуты: Для продукта: ключ продукта (внешний ключ), имя, тип, технические характеристики
Иерархии: Для Расположение: Страна, Штат, Город, Уличный адрес, Имя
Шаг 4) Определите факт
Этот шаг связан с бизнес-пользователями системы, потому что именно здесь они получают доступ к данным, хранящимся в хранилище данных. Большинство строк таблицы фактов являются числовыми значениями, такими как цена или стоимость за единицу и т. Д.
Пример фактов:
Генеральный директор MNC хочет ежедневно узнавать о продажах конкретных продуктов в разных местах.
Факт здесь — Сумма Продаж по продукту местоположением временем.
Шаг 5) Построить схему
На этом этапе вы реализуете модель измерений. Схема — это не что иное, как структура базы данных (расположение таблиц). Есть две популярные схемы
- Схема звезды
Архитектура звездной схемы проста в разработке. Она называется звездной схемой, потому что диаграмма напоминает звезду с точками, исходящими из центра. Центр звезды состоит из таблицы фактов, а точки звезды — это таблицы измерений.
Таблицы фактов в звездообразной схеме, которая является третьей нормальной формой, тогда как размерные таблицы не нормализованы.
- Снежинка Схема
Схема снежинки является расширением схемы звезды. В схеме снежинки каждое измерение нормализовано и связано с несколькими таблицами измерений.
Правила для размерного моделирования
- Загрузите атомарные данные в размерные структуры.
- Построить размерные модели вокруг бизнес-процессов.
- Необходимо убедиться, что с каждой таблицей фактов связана таблица измерений даты.
- Убедитесь, что все факты в одной таблице фактов находятся на одном уровне или уровне детализации.
- Важно хранить метки отчетов и фильтровать значения доменов в таблицах измерений.
- Необходимо убедиться, что в таблицах измерений используется суррогатный ключ
- Непрерывный баланс требований и реалий для предоставления бизнес-решений для поддержки принятия решений
Преимущества размерного моделирования
- Стандартизация измерений позволяет легко составлять отчеты по всем направлениям бизнеса.
- Таблицы измерений хранят историю размерной информации.
- Это позволяет ввести совершенно новое измерение без серьезных сбоев в таблице фактов.
- Размерно также хранить данные таким образом, чтобы легче было извлекать информацию из данных после того, как данные сохранены в базе данных.
- По сравнению с нормализованной моделью размерная таблица легче понять.
- Информация сгруппирована в понятные и простые бизнес-категории.
- Размерная модель очень понятна бизнесу. Эта модель основана на бизнес-терминах, поэтому бизнес знает, что означает каждый факт, измерение или атрибут.
- Размерные модели деформированы и оптимизированы для быстрого запроса данных. Многие платформы реляционных баз данных распознают эту модель и оптимизируют планы выполнения запросов для повышения производительности.
- Пространственное моделирование создает схему, оптимизированную для высокой производительности. Это означает меньшее количество объединений и помогает минимизировать избыточность данных.
- Размерная модель также помогает повысить производительность запросов. Он более денормализован, поэтому оптимизирован для запросов.
- Габаритные модели могут комфортно приспосабливаться к изменениям. Таблицы измерений могут иметь дополнительные столбцы, не затрагивая существующие приложения бизнес-аналитики, использующие эти таблицы.
Резюме:
- Многомерная модель — это метод структуры данных, оптимизированный для инструментов хранилищ данных.
- Факты — это измерения / метрики или факты вашего бизнес-процесса.
- Измерение обеспечивает контекст, окружающий событие бизнес-процесса.
- Атрибуты — это различные характеристики измерения.
- Таблица фактов — это первичная таблица в размерной модели.
- Таблица измерений содержит измерения факта.
- Существует три типа фактов: 1. Аддитивные 2. Неаддитивные 3. Полуаддитивные.
- Типы измерений: согласованный, аутриггер, усохший, ролевая игра, таблица измерения размеров, мусорный, вырожденный, сменный и пошаговый.
- Пять этапов размерного моделирования: 1. Определить бизнес-процесс 2. Определить зерно (уровень детализации) 3. Определить измерения 4. Определить факты 5. Построить звезду
- При моделировании измерений необходимо убедиться, что с каждой таблицей фактов связана таблица измерений даты.