Учебники

13) Учебник по Data Mart

Что такое Data Mart?

DATA MART сосредоточена на одной функциональной области организации и содержит подмножество данных , хранящихся в хранилище данных. Data Mart — это сжатая версия хранилища данных, предназначенная для использования конкретным отделом, подразделением или группой пользователей в организации. Например, маркетинг, продажи, HR или финансы. Это часто контролируется одним отделом в организации.

Data Mart обычно получает данные только из нескольких источников по сравнению с хранилищем данных. Витрины данных имеют небольшой размер и более гибкие по сравнению с хранилищем данных.

В этом уроке вы узнаете

Зачем нам нужен Data Mart?

  • Data Mart помогает увеличить время отклика пользователя за счет уменьшения объема данных
  • Это обеспечивает легкий доступ к часто запрашиваемым данным.
  • Стенд данных проще реализовать по сравнению с корпоративным хранилищем данных. В то же время стоимость внедрения Data Mart определенно ниже по сравнению с полным хранилищем данных.
  • По сравнению с хранилищем данных, datamart является гибким. В случае изменения модели, Datamart может быть построен быстрее из-за меньшего размера.
  • Datamart определяется одним экспертом по предмету. Напротив, хранилище данных определяется междисциплинарным МСП из множества доменов. Следовательно, Data Mart более открыт для изменений по сравнению с Datawarehouse.
  • Данные разделены на части и предоставляют очень детальные права доступа.
  • Данные могут быть сегментированы и храниться на разных аппаратных / программных платформах.

Тип данных Mart

Существует три основных типа витрин данных:

  1. Зависимый : зависимые витрины данных создаются путем рисования данных непосредственно из операционных, внешних или обоих источников.
  2. Независимый : Независимый витрин данных создается без использования центрального хранилища данных.
  3. Гибридные : витрины данных этого типа могут получать данные из хранилищ данных или операционных систем.

Зависимая база данных

Зависимая витрина данных позволяет получать данные организации из одного хранилища данных. Он предлагает преимущество централизации. Если вам необходимо разработать один или несколько физических витрин данных, то вам необходимо настроить их как зависимые витрины данных.

Зависимые витрины данных могут быть построены двумя различными способами. Либо там, где пользователь может получить доступ как к витрине данных, так и к хранилищу данных, в зависимости от необходимости, или где доступ ограничен только витриной данных. Второй подход не является оптимальным, поскольку его иногда называют хранилищем данных. В хранилище данных все данные начинаются с общего источника, но они отбрасываются и в основном отправляются на свалку.

Независимый Data Mart

Независимая витрина данных создается без использования центрального хранилища данных. Этот вид Data Mart является идеальным вариантом для небольших групп внутри организации.

Независимый киоск данных не связан ни с хранилищем данных предприятия, ни с каким-либо другим киоском данных. В независимом витрине данных данные вводятся отдельно, и их анализ также выполняется автономно.

Реализация независимых витрин данных противоречит мотивации создания хранилища данных. Прежде всего, вам нужно единообразное централизованное хранилище корпоративных данных, которое может быть проанализировано несколькими пользователями с разными интересами, которые хотят получать разную информацию.

Гибридные данные Mart:

Гибридная витрина данных объединяет входные данные, помимо хранилища данных. Это может быть полезно, когда вы хотите специальную интеграцию, например, после добавления новой группы или продукта в организацию.

Он лучше всего подходит для сред с несколькими базами данных и обеспечивает быструю реализацию для любой организации. Это также требует минимальных усилий по очистке данных. Гибридная витрина данных также поддерживает большие структуры хранения и лучше всего подходит для гибких приложений меньшего размера, ориентированных на данные.

Шаги в реализации Datamart

Реализация Data Mart — полезная, но сложная процедура. Вот подробные шаги для реализации Data Mart:

Проектирование

Проектирование — это первая фаза внедрения Data Mart. Он охватывает все задачи от инициации запроса на витрину данных до сбора информации о требованиях. Наконец, мы создаем логический и физический дизайн витрины данных.

Этап проектирования включает в себя следующие задачи:

  • Сбор бизнес и технических требований и определение источников данных.
  • Выбор подходящего подмножества данных.
  • Разработка логической и физической структуры витрины данных.

Данные могут быть разделены на основе следующих критериев:

  • Свидание
  • Бизнес или функциональная единица
  • география
  • Любая комбинация выше

Данные могут быть разделены на уровне приложения или СУБД. Хотя рекомендуется разбивать на уровне приложений, так как это позволяет различные модели данных каждый год с изменением в бизнес-среде.

Какие продукты и технологии вам нужны?

Достаточно простой ручки и бумаги. Хотя инструменты, которые помогают вам создавать диаграммы UML или ER, также добавят метаданные в ваш логический и физический дизайн.

строительство

Это второй этап внедрения. Это включает в себя создание физической базы данных и логических структур.

Этот шаг включает в себя следующие задачи:

  • Реализация физической базы данных, разработанной на более раннем этапе. Например, создаются объекты схемы базы данных, такие как таблица, индексы, представления и т. Д.

Какие продукты и технологии вам нужны?

Вам нужна система управления реляционной базой данных для построения витрины данных. СУБД имеют несколько функций, которые необходимы для успеха Data Mart.

  • Управление хранением: СУБД хранит и управляет данными для создания, добавления и удаления данных.
  • Быстрый доступ к данным: с помощью SQL-запроса вы можете легко получить доступ к данным на основе определенных условий / фильтров.
  • Защита данных: система RDBMS также предлагает способ восстановления после сбоев системы, таких как сбои питания. Это также позволяет восстановить данные из этих резервных копий в случае сбоя диска.
  • Многопользовательская поддержка: система управления данными предлагает одновременный доступ, возможность для нескольких пользователей получать доступ и изменять данные без вмешательства или перезаписи изменений, сделанных другим пользователем.
  • Безопасность: система RDMS также предоставляет возможность регулировать доступ пользователей к объектам и определенным типам операций.

Наполнение:

На третьем этапе данные вводятся в витрину данных.

Шаг заполнения включает в себя следующие задачи:

  • Исходные данные для целевых данных
  • Извлечение исходных данных
  • Операции очистки и преобразования данных
  • Загрузка данных в витрину
  • Создание и хранение метаданных

Какие продукты и технологии вам нужны?

Вы выполняете эти задачи по заполнению, используя инструмент ETL (Extract Transform Load). Этот инструмент позволяет вам просматривать источники данных, выполнять сопоставление источника с целью, извлекать данные, преобразовывать, очищать их и загружать обратно в витрину данных.

В процессе работы инструмент также создает некоторые метаданные, относящиеся к таким вещам, как, например, откуда пришли данные, как недавно они были сделаны, какие изменения были внесены в данные и какой уровень суммирования был выполнен.

Доступ к

Доступ — это четвертый шаг, который включает использование данных: запрос данных, создание отчетов, диаграмм и их публикацию. Конечный пользователь отправляет запросы в базу данных и отображает результаты запросов

Шаг доступа должен выполнить следующие задачи:

  • Настройте мета-слой, который переводит структуры баз данных и имена объектов в бизнес-термины. Это помогает нетехническим пользователям легко получить доступ к витрине данных.
  • Настройка и поддержка структур базы данных.
  • Настройте API и интерфейсы, если требуется

Какие продукты и технологии вам нужны?

Вы можете получить доступ к витрине данных с помощью командной строки или графического интерфейса. Графический интерфейс предпочтительнее, поскольку он может легко генерировать графики и удобен для пользователя по сравнению с командной строкой.

Управление

Это последний шаг процесса внедрения Data Mart. Этот шаг охватывает задачи управления, такие как

  • Постоянное управление доступом пользователей.
  • Оптимизация системы и точная настройка для достижения повышенной производительности.
  • Добавление и управление свежими данными в витрине.
  • Планирование сценариев восстановления и обеспечение доступности системы в случае сбоя системы.

Какие продукты и технологии вам нужны?

Вы можете использовать графический интерфейс или командную строку для управления витриной данных.

Лучшие практики для реализации витрин данных

Ниже приведены рекомендации, которым необходимо следовать в процессе внедрения Data Mart:

  • Источник Data Mart должен иметь структурную структуру
  • Цикл реализации Data Mart должен измеряться в короткие периоды времени, то есть в неделях, а не в месяцах или годах.
  • Важно вовлечь все заинтересованные стороны в фазу планирования и проектирования, поскольку реализация витрины данных может быть сложной.
  • Расходы на оборудование, программное обеспечение, сети и внедрение Data Mart должны быть точно учтены в вашем плане
  • Даже если база данных создается на одном и том же оборудовании, им может потребоваться другое программное обеспечение для обработки пользовательских запросов. Для быстрой реакции пользователя необходимо оценить дополнительные требования к вычислительной мощности и дисковому хранилищу
  • Витрина данных может находиться в другом месте, чем хранилище данных. Вот почему важно убедиться, что у них достаточно сетевых возможностей для обработки томов данных, необходимых для передачи данных в витрину данных .
  • Стоимость внедрения должна составлять бюджет времени, затрачиваемого на процесс загрузки Datamart. Время загрузки увеличивается с увеличением сложности преобразований.

Преимущества и недостатки Data Mart

преимущества

  • Витрины данных содержат подмножество общеорганизационных данных. Эти данные ценны для определенной группы людей в организации.
  • Это экономически выгодные альтернативы хранилищу данных, которые могут потребовать больших затрат на создание.
  • Data Mart обеспечивает более быстрый доступ к данным.
  • Data Mart прост в использовании, так как он специально разработан для нужд своих пользователей. Таким образом, витрина данных может ускорить бизнес-процессы.
  • Для киосков данных требуется меньше времени на внедрение по сравнению с системами хранилищ данных. Реализовать Data Mart быстрее, поскольку вам нужно только сконцентрировать единственное подмножество данных.
  • Он содержит исторические данные, которые позволяют аналитику определять тенденции данных.

Недостатки

  • Часто предприятия создают слишком много разрозненных и не связанных друг с другом витрин данных без особой выгоды. Это может стать большим препятствием для поддержания.
  • Data Mart не может обеспечить анализ данных в масштабе всей компании, поскольку их набор данных ограничен.

Резюме:

  • Data Mart определяется как подмножество хранилища данных, которое сосредоточено на одной функциональной области организации.
  • Data Mart помогает увеличить время отклика пользователя за счет уменьшения объема данных.
  • Три типа витрины данных: 1) зависимый 2) независимый 3) гибридный
  • Важными этапами реализации Data Mart являются: 1) Проектирование 2) Создание 3 Заполнение 4) Доступ и 5) Управление
  • Цикл реализации Data Mart должен измеряться в короткие периоды времени, то есть в неделях, а не в месяцах или годах.
  • Data Mart представляет собой экономически эффективную альтернативу хранилищу данных, что может потребовать больших затрат на создание.
  • Data Mart не может обеспечить анализ данных в масштабе всей компании, поскольку набор данных ограничен.