Учебники

1) Что такое хранилище данных?

Что такое хранилище данных?

Хранилища данных (DW) является процессом сбора и управления данными из различных источников , чтобы обеспечить значимые бизнес — идею. Хранилище данных обычно используется для подключения и анализа бизнес-данных из разнородных источников. Хранилище данных является ядром системы BI, которая построена для анализа данных и отчетности.

Это смесь технологий и компонентов, которая помогает стратегическому использованию данных. Это электронное хранилище большого объема информации, предназначенное для бизнеса и предназначенное для обработки запросов и анализа вместо обработки транзакций. Это процесс преобразования данных в информацию и своевременного предоставления их пользователям, чтобы изменить ситуацию.

В этом уроке вы узнаете больше о

База данных поддержки принятия решений (хранилище данных) поддерживается отдельно от оперативной базы данных организации. Однако хранилище данных — это не продукт, а среда. Это архитектурная конструкция информационной системы, которая предоставляет пользователям текущую и историческую информацию поддержки принятия решений, которую трудно получить или представить в традиционном хранилище оперативных данных.

Многие знают, что база данных, разработанная 3NF для системы инвентаризации, имеет таблицы, связанные друг с другом. Например, отчет о текущей инвентарной информации может включать более 12 объединенных условий. Это может быстро замедлить время ответа на запрос и отчет. Хранилище данных предоставляет новый дизайн, который может помочь сократить время отклика и повысить производительность запросов для отчетов и аналитики.

Система хранилища данных также известна под следующим именем:

  • Система поддержки принятия решений (DSS)
  • Исполнительная информационная система
  • Информационная система управления
  • Решение для бизнес-аналитики
  • Аналитическое приложение
  • Хранилище данных

История Datawarehouse

Datawarehouse помогает пользователям понимать и повышать производительность своей организации. Потребность в хранении данных развивалась по мере того, как компьютерные системы становились все более сложными и нужными для обработки растущих объемов информации. Тем не менее, хранилище данных не новость.

Вот некоторые ключевые события в эволюции хранилища данных:

  • 1960 — Дартмут и Дженерал Миллс в совместном исследовательском проекте разрабатывают термины измерения и факты.
  • 1970 — Nielsen и IRI представляют витрины размерных данных для розничных продаж.
  • 1983 — Tera Data Corporation представляет систему управления базами данных, которая специально разработана для поддержки принятия решений
  • Хранилище данных началось в конце 1980-х годов, когда сотрудник IBM Пол Мерфи и Барри Девлин разработали хранилище бизнес-данных.
  • Однако настоящую концепцию дал Инмон Билл. Он считался отцом хранилища данных. Он написал о множестве тем для строительства, использования и обслуживания склада и Корпоративной информационной фабрики.

Как работает Datawarehouse?

Хранилище данных работает как центральное хранилище, куда информация поступает из одного или нескольких источников данных. Данные поступают в хранилище данных из транзакционной системы и других реляционных баз данных.

Данные могут быть:

  1. Структурированные
  2. Полуструктурированный
  3. Неструктурированные данные

Данные обрабатываются, преобразуются и принимаются, так что пользователи могут получить доступ к обработанным данным в хранилище данных с помощью инструментов бизнес-аналитики, клиентов SQL и электронных таблиц. Хранилище данных объединяет информацию, поступающую из разных источников, в одну комплексную базу данных.

Объединяя всю эту информацию в одном месте, организация может более целостно анализировать своих клиентов. Это помогает гарантировать, что он рассмотрел всю доступную информацию. Хранилище данных делает возможным интеллектуальный анализ данных. Data Mining ищет шаблоны данных, которые могут привести к увеличению продаж и прибыли.

Типы хранилищ данных

Три основных типа хранилищ данных:

1. Хранилище корпоративных данных:

Enterprise Data Warehouse — это централизованное хранилище. Он обеспечивает поддержку принятия решений по всему предприятию. Он предлагает унифицированный подход к организации и представлению данных. Это также дает возможность классифицировать данные в соответствии с предметом и предоставлять доступ в соответствии с этими подразделениями.

2. Оперативное хранилище данных:

Оперативное хранилище данных, которое также называют ODS, — это не что иное, как хранилище данных, которое требуется, когда ни хранилище данных, ни системы OLTP не поддерживают потребности организаций в отчетности. В ODS хранилище данных обновляется в режиме реального времени. Следовательно, это широко предпочитается для рутинных действий, таких как хранение записей сотрудников.

3. Data Mart:

Витрина данных является подмножеством хранилища данных. Он специально разработан для определенной сферы бизнеса, такой как продажи, финансы, продажи или финансы. В независимой витрине данных данные могут собираться непосредственно из источников.

Основные этапы хранилища данных

Ранее организации начали относительно простое использование хранилищ данных. Однако со временем началось более сложное использование хранилищ данных.

Ниже приведены общие этапы использования хранилища данных:

Оперативная база данных в автономном режиме:

На этом этапе данные просто копируются из операционной системы на другой сервер. Таким образом, загрузка, обработка и создание отчетов о скопированных данных не влияют на производительность операционной системы.

Автономное хранилище данных:

Данные в хранилище данных регулярно обновляются из оперативной базы данных. Данные в Datawarehouse отображаются и преобразуются в соответствии с целями Datawarehouse.

Хранилище данных в реальном времени:

На этом этапе хранилища данных обновляются всякий раз, когда в оперативной базе данных происходит какая-либо транзакция. Например, система бронирования авиабилетов или ж / д.

Интегрированное хранилище данных:

На этом этапе хранилища данных постоянно обновляются, когда операционная система выполняет транзакцию. Затем Datawarehouse генерирует транзакции, которые передаются обратно в операционную систему.

Компоненты хранилища данных

Четыре компонента хранилищ данных:

Диспетчер загрузки: Диспетчер загрузки также называется фронтальным компонентом. Он выполняет все операции, связанные с извлечением и загрузкой данных в хранилище. Эти операции включают преобразования для подготовки данных для ввода в хранилище данных.

Warehouse Manager: Warehouse Manager выполняет операции, связанные с управлением данными в хранилище. Он выполняет такие операции, как анализ данных, для обеспечения согласованности, создания индексов и представлений, генерации денормализации и агрегирования, преобразования и объединения исходных данных, а также архивирования и обработки данных.

Менеджер запросов: Менеджер запросов также известен как бэкэнд-компонент. Он выполняет все операции, связанные с управлением пользовательскими запросами. Операции этих компонентов хранилища данных являются прямыми запросами к соответствующим таблицам для планирования выполнения запросов.

Инструменты доступа конечного пользователя:

Он подразделяется на пять различных групп, таких как 1. Отчетность о данных 2. Инструменты запросов 3. Инструменты разработки приложений 4. Инструменты EIS, 5. Инструменты OLAP и инструменты интеллектуального анализа данных.

Кому нужно хранилище данных?

Хранилище данных необходимо для всех типов пользователей, таких как:

  • Лица, принимающие решения, которые полагаются на большое количество данных
  • Пользователи, которые используют настраиваемые сложные процессы для получения информации из нескольких источников данных.
  • Он также используется людьми, которым нужна простая технология для доступа к данным.
  • Это также важно для тех людей, которые хотят системного подхода к принятию решений.
  • Если пользователь хочет быстрой работы с огромным объемом данных, который необходим для отчетов, таблиц или диаграмм, хранилище данных оказывается полезным.
  • Хранилище данных — это первый шаг, если вы хотите обнаружить «скрытые шаблоны» потоков и группировок данных.

Для чего используется хранилище данных?

Вот наиболее распространенные сектора, где используется хранилище данных:

Авиакомпания:

В системе «Авиакомпания» она используется для оперативных целей, таких как назначение экипажа, анализ прибыльности маршрута, продвижение программ для часто летающих пассажиров и т. Д.

Банковское дело:

Он широко используется в банковском секторе для эффективного управления ресурсами, имеющимися на столе. Немногие банки также использовали для исследования рынка, анализа эффективности продукта и операций.

Здравоохранение:

Сектор здравоохранения также использовал хранилище данных для выработки стратегии и прогнозирования результатов, формирования отчетов о лечении пациентов, обмена данными со связанными страховыми компаниями, службами медицинской помощи и т. Д.

Государственный сектор:

В государственном секторе хранилище данных используется для сбора информации. Это помогает правительственным учреждениям вести и анализировать налоговые записи, записи политики здравоохранения для каждого человека.

Инвестиционно-страховой сектор:

В этом секторе склады в основном используются для анализа моделей данных, тенденций покупателей и отслеживания изменений на рынке.

Сохранить цепочку:

В розничных сетях хранилище данных широко используется для распространения и маркетинга. Он также помогает отслеживать товары, структуру покупок, рекламные акции, а также используется для определения ценовой политики.

Телекоммуникационная:

Хранилище данных используется в этом секторе для продвижения продукции, принятия решений о продажах и принятия решений о распространении.

Индустрия гостеприимства:

Эта отрасль использует складские услуги для разработки, а также оценки своих рекламных и рекламных кампаний, где они хотят ориентироваться на клиентов, на основе их отзывов и моделей поездок.

Шаги по внедрению хранилища данных

Лучший способ устранить бизнес-риски, связанные с реализацией Datawarehouse, — это использовать стратегию, состоящую из трех частей, как показано ниже

  1. Стратегия предприятия : здесь мы определяем технические, включая текущую архитектуру и инструменты. Мы также определяем факты, размеры и атрибуты. Отображение данных и преобразование также передается.
  2. Поэтапная доставка : внедрение Datawarehouse должно осуществляться поэтапно в зависимости от предметных областей. Связанные бизнес-объекты, такие как бронирование и выставление счетов, должны быть сначала реализованы, а затем интегрированы друг с другом.
  3. Итеративное прототипирование : вместо подхода большого взрыва к реализации, Datawarehouse следует разрабатывать и тестировать итеративно.

Вот ключевые шаги в реализации Datawarehouse вместе с его результатами.

шаг Задания Практические результаты
1 Необходимо определить масштаб проекта Определение области
2 Необходимо определить потребности бизнеса Логическая модель данных
3 Определить требования к операционному хранилищу данных Модель хранилища оперативных данных
4 Приобретать или разрабатывать инструменты для извлечения Извлечение инструментов и программного обеспечения
5 Определить требования к хранилищу данных Модель данных перехода
6 Документ пропущенных данных Сделать список проектов
7 Сопоставляет оперативное хранилище данных с хранилищем данных Карта интеграции данных D / W
8 Разработка базы данных хранилища данных Дизайн базы данных D / W
9 Извлечение данных из оперативного хранилища данных Интегрированные экстракты данных D / W
10 Загрузить хранилище данных Начальная загрузка данных
11 Ведение хранилища данных Постоянный доступ к данным и последующие загрузки

Лучшие практики для реализации хранилища данных

  • Определите план проверки согласованности, точности и целостности данных.
  • Хранилище данных должно быть хорошо интегрировано, четко определено и с временными отметками.
  • При разработке Datawarehouse убедитесь, что вы используете правильный инструмент, придерживайтесь жизненного цикла, позаботьтесь о конфликтах данных и будьте готовы к тому, что вы ошибаетесь.
  • Никогда не заменяйте операционные системы и отчеты
  • Не тратьте слишком много времени на извлечение, очистку и загрузку данных.
  • Убедитесь, что все заинтересованные стороны, включая бизнес-персонал, вовлечены в процесс внедрения Datawarehouse. Установить, что хранилище данных является совместным / групповым проектом. Вы не хотите создавать хранилище данных, которое бесполезно для конечных пользователей.
  • Подготовьте план обучения для конечных пользователей.

Зачем нам нужно хранилище данных? Преимущества недостатки

Преимущества хранилища данных:

  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.
  • Хранилище данных предоставляет согласованную информацию о различных межфункциональных действиях. Он также поддерживает специальные отчеты и запросы.
  • Хранилище данных помогает интегрировать множество источников данных, чтобы снизить нагрузку на производственную систему.
  • Хранилище данных помогает сократить общее время обработки для анализа и отчетности.
  • Реструктуризация и интеграция упрощают использование отчетов и анализа.
  • Хранилище данных позволяет пользователям получать доступ к критически важным данным из нескольких источников в одном месте. Таким образом, это экономит время пользователя на получение данных из нескольких источников.
  • Хранилище данных хранит большое количество исторических данных. Это помогает пользователям анализировать различные периоды времени и тенденции, чтобы делать прогнозы на будущее.

Недостатки хранилища данных:

  • Не идеальный вариант для неструктурированных данных.
  • Создание и внедрение хранилища данных — это, безусловно, запутанное время.
  • Хранилище данных может сравнительно быстро устареть
  • Трудно вносить изменения в типы данных и диапазоны, схему источника данных, индексы и запросы.
  • Хранилище данных может показаться простым, но на самом деле оно слишком сложное для обычных пользователей.
  • Несмотря на все усилия по управлению проектами, объем проекта хранилищ данных всегда будет увеличиваться.
  • Иногда пользователи склада разрабатывают различные бизнес-правила.
  • Организации должны тратить много своих ресурсов на обучение и внедрение.

Будущее хранилищ данных

  • Изменения в нормативных ограничениях могут ограничивать возможность объединения источников разнородных данных. Эти разрозненные источники могут включать неструктурированные данные, которые трудно хранить.
  • По мере увеличения размера баз данных оценки того, что составляет очень большую базу данных, продолжают расти. Сложно создавать и запускать системы хранилищ данных, размер которых постоянно увеличивается. Доступные сегодня аппаратные и программные ресурсы не позволяют хранить большой объем данных в сети.
  • Мультимедийные данные не могут быть легко обработаны как текстовые данные, тогда как текстовая информация может быть получена с помощью реляционного программного обеспечения, доступного сегодня. Это может быть предметом исследования.

Инструменты хранилища данных

На рынке доступно много инструментов для хранения данных. Вот некоторые из наиболее выдающихся:

1. MarkLogic:

MarkLogic — это полезное решение для работы с хранилищами данных, которое делает интеграцию данных проще и быстрее с использованием множества корпоративных функций. Этот инструмент помогает выполнять очень сложные поисковые операции. Он может запрашивать различные типы данных, такие как документы, отношения и метаданные.

https://developer.marklogic.com/products/

2. Оракул:

Oracle является лидирующей в отрасли базой данных. Он предлагает широкий выбор решений для хранилищ данных как локально, так и в облаке. Это помогает оптимизировать качество обслуживания клиентов за счет повышения операционной эффективности.

https://www.oracle.com/index.html

3. Amazon RedShift:

Amazon Redshift является инструментом хранилища данных. Это простой и экономичный инструмент для анализа всех типов данных с использованием стандартного SQL и существующих инструментов BI. Это также позволяет выполнять сложные запросы к петабайтам структурированных данных, используя технику оптимизации запросов.

https://aws.amazon.com/redshift/?nc2=h_m1

Вот полный список полезных инструментов Datawarehouse.

КЛЮЧ ОБУЧЕНИЯ

  • Хранилище данных работает как центральное хранилище, где информация поступает из одного или нескольких источников данных.
  • Три основных типа хранилищ данных — это хранилище корпоративных данных, операционное хранилище данных и Data Mart.
  • Общее состояние хранилища данных: автономная рабочая база данных, автономное хранилище данных, хранилище данных в реальном времени и интегрированное хранилище данных.
  • Четыре основных компонента Datawarehouse: менеджер нагрузки, менеджер хранилища, менеджер запросов, инструменты доступа для конечного пользователя
  • Datawarehouse используется в различных отраслях, таких как авиалинии, банковское дело, здравоохранение, страхование, розничная торговля и т. Д.
  • Внедрение Datawarehosue является стратегией, состоящей из трех частей: Стратегия предприятия, поэтапная доставка и итеративное прототипирование.
  • Хранилище данных позволяет бизнес-пользователям быстро получать доступ к критически важным данным из некоторых источников в одном месте.