Учебники

Data Mining – Оценка

Хранилище данных обладает следующими характеристиками для поддержки процесса принятия решений руководством:

  • Предметно-ориентированный. Хранилище данных является предметно-ориентированным, поскольку предоставляет нам информацию о предмете, а не о текущих операциях организации. Такими субъектами могут быть продукт, клиенты, поставщики, продажи, выручка и т. Д. Хранилище данных не ориентировано на текущие операции, а сосредоточено на моделировании и анализе данных для принятия решений.

  • Интегрированный – хранилище данных строится путем интеграции данных из разнородных источников, таких как реляционные базы данных, плоские файлы и т. Д. Эта интеграция повышает эффективность анализа данных.

  • Вариант времени – данные, собранные в хранилище данных, идентифицируются с определенным периодом времени. Данные в хранилище данных предоставляют информацию с исторической точки зрения.

  • Энергонезависимый – энергонезависимый означает, что предыдущие данные не удаляются при добавлении новых данных. Хранилище данных хранится отдельно от оперативной базы данных, поэтому частые изменения в оперативной базе данных не отражаются в хранилище данных.

Предметно-ориентированный. Хранилище данных является предметно-ориентированным, поскольку предоставляет нам информацию о предмете, а не о текущих операциях организации. Такими субъектами могут быть продукт, клиенты, поставщики, продажи, выручка и т. Д. Хранилище данных не ориентировано на текущие операции, а сосредоточено на моделировании и анализе данных для принятия решений.

Интегрированный – хранилище данных строится путем интеграции данных из разнородных источников, таких как реляционные базы данных, плоские файлы и т. Д. Эта интеграция повышает эффективность анализа данных.

Вариант времени – данные, собранные в хранилище данных, идентифицируются с определенным периодом времени. Данные в хранилище данных предоставляют информацию с исторической точки зрения.

Энергонезависимый – энергонезависимый означает, что предыдущие данные не удаляются при добавлении новых данных. Хранилище данных хранится отдельно от оперативной базы данных, поэтому частые изменения в оперативной базе данных не отражаются в хранилище данных.

Хранилище данных

Хранилище данных – это процесс построения и использования хранилища данных. Хранилище данных создается путем интеграции данных из нескольких разнородных источников. Он поддерживает аналитическую отчетность, структурированные и / или специальные запросы и принятие решений.

Хранилище данных включает в себя очистку данных, интеграцию данных и консолидацию данных. Для интеграции разнородных баз данных у нас есть два следующих подхода:

  • Query Driven подход
  • Обновить управляемый подход

Query-Driven подход

Это традиционный подход к интеграции разнородных баз данных. Этот подход используется для создания оболочек и интеграторов поверх множества разнородных баз данных. Эти интеграторы также известны как посредники.

Процесс запроса управляемый подход

  • Когда запрос выдается на стороне клиента, словарь метаданных преобразует запрос в запросы, соответствующие отдельному гетерогенному участку.

  • Теперь эти запросы отображаются и отправляются локальному обработчику запросов.

  • Результаты из разнородных сайтов интегрированы в глобальный набор ответов.

Когда запрос выдается на стороне клиента, словарь метаданных преобразует запрос в запросы, соответствующие отдельному гетерогенному участку.

Теперь эти запросы отображаются и отправляются локальному обработчику запросов.

Результаты из разнородных сайтов интегрированы в глобальный набор ответов.

Недостатки

Этот подход имеет следующие недостатки –

  • Подход, основанный на запросах, требует сложных процессов интеграции и фильтрации.

  • Это очень неэффективно и очень дорого для частых запросов.

  • Этот подход дорог для запросов, которые требуют агрегирования.

Подход, основанный на запросах, требует сложных процессов интеграции и фильтрации.

Это очень неэффективно и очень дорого для частых запросов.

Этот подход дорог для запросов, которые требуют агрегирования.

Обновленный подход

Современные системы хранения данных следуют подходу, основанному на обновлениях, а не традиционному подходу, который обсуждался ранее. В подходе, основанном на обновлении, информация из нескольких разнородных источников заранее интегрируется и сохраняется на складе. Эта информация доступна для прямого запроса и анализа.

преимущества

Этот подход имеет следующие преимущества –

  • Такой подход обеспечивает высокую производительность.

  • Данные могут быть заранее скопированы, обработаны, интегрированы, аннотированы, обобщены и реструктурированы в хранилище семантических данных.

Такой подход обеспечивает высокую производительность.

Данные могут быть заранее скопированы, обработаны, интегрированы, аннотированы, обобщены и реструктурированы в хранилище семантических данных.

Обработка запросов не требует взаимодействия с обработкой на локальных источниках.

От хранилища данных (OLAP) к интеллектуальному анализу данных (OLAM)

Online Analytical Mining интегрируется с Online Analytical Processing с интеллектуальным анализом данных и интеллектуальным анализом в многомерных базах данных. Вот схема, которая показывает интеграцию OLAP и OLAM –

OLAP для OLAM

Важность OLAM

OLAM важен по следующим причинам –

Высокое качество данных в хранилищах данных. Инструменты интеллектуального анализа данных необходимы для работы с интегрированными, согласованными и очищенными данными. Эти шаги очень дороги при предварительной обработке данных. Хранилища данных, созданные с помощью такой предварительной обработки, являются ценными источниками высококачественных данных для OLAP и интеллектуального анализа данных.

Доступная инфраструктура обработки информации, окружающая хранилища данных. Инфраструктура обработки информации относится к доступу, интеграции, консолидации и преобразованию нескольких разнородных баз данных, средствам доступа в Интернет и обслуживания, инструментам отчетности и анализа OLAP.

Исследовательский анализ данных на основе OLAP. Для эффективного извлечения данных необходим исследовательский анализ данных. OLAM предоставляет средства для интеллектуального анализа данных на различных подмножествах данных и на разных уровнях абстракции.

Онлайновый выбор функций интеллектуального анализа данных. Интеграция OLAP с несколькими функциями интеллектуального анализа данных и интерактивным аналитическим анализом данных дает пользователям возможность гибко выбирать нужные функции интеллектуального анализа данных и динамически заменять задачи интеллектуального анализа данных.