Данные в системе хранилища данных загружаются с помощью инструмента ETL (извлечение, преобразование, загрузка). Как следует из названия, он выполняет следующие три операции —
-
Извлекает данные из вашей транзакционной системы, которая может быть Oracle, Microsoft или любой другой реляционной базой данных,
-
Преобразует данные, выполняя операции очистки данных, а затем
-
Загружает данные в хранилище данных OLAP.
Извлекает данные из вашей транзакционной системы, которая может быть Oracle, Microsoft или любой другой реляционной базой данных,
Преобразует данные, выполняя операции очистки данных, а затем
Загружает данные в хранилище данных OLAP.
Вы также можете извлечь данные из плоских файлов, таких как электронные таблицы и файлы CSV, используя инструмент ETL, и загрузить их в хранилище данных OLAP для анализа данных и составления отчетов. Давайте возьмем пример, чтобы понять это лучше.
пример
Предположим, что есть производственная компания, имеющая несколько отделов, таких как отдел продаж, отдел кадров, управление материальными потоками, EWM и т. Д. Все эти отделы имеют отдельные базы данных, которые они используют для хранения информации о своей работе, и каждая база данных имеет свою технологию, ландшафт, таблицу имена, столбцы и т. д. Теперь, если компания хочет проанализировать исторические данные и сгенерировать отчеты, все данные из этих источников данных следует извлечь и загрузить в хранилище данных, чтобы сохранить его для аналитической работы.
Инструмент ETL извлекает данные из всех этих разнородных источников данных, преобразует их (например, применяет вычисления, объединяет поля, ключи, удаляет неправильные поля данных и т. Д.) И загружает их в хранилище данных. Позже вы сможете использовать различные инструменты бизнес-аналитики (BI) для создания значимых отчетов, панелей мониторинга и визуализаций с использованием этих данных.
Разница между ETL и BI-инструментами
Инструмент ETL используется для извлечения данных из различных источников данных, преобразования данных и загрузки их в систему DW; однако инструмент BI используется для создания интерактивных и специальных отчетов для конечных пользователей, информационной панели для высшего руководства, визуализации данных для ежемесячных, ежеквартальных и ежегодных заседаний совета директоров.
Наиболее распространенными инструментами ETL являются — SAP BO Data Services (BODS), Informatica — Power Center, Microsoft — SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL с открытым исходным кодом и т. Д.
Некоторые популярные BI-инструменты включают в себя — SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition и т. Д.
Процесс ETL
Давайте теперь немного подробнее обсудим ключевые этапы процедуры ETL —
Извлечение данных
Он включает в себя извлечение данных из разных разнородных источников данных. Извлечение данных из транзакционной системы зависит от требований и используемого ETL-инструмента. Обычно это выполняется путем выполнения запланированных заданий в нерабочее время, например, в ночное время или в выходные дни.
Преобразование данных
Это включает преобразование данных в подходящий формат, который может быть легко загружен в систему DW. Преобразование данных включает применение вычислений, объединений и определение первичных и внешних ключей данных. Например, если вы хотите% от общего дохода, которого нет в базе данных, вы примените формулу% в преобразовании и загрузите данные. Точно так же, если у вас есть имя и фамилия пользователей в разных столбцах, вы можете применить объединенную операцию перед загрузкой данных. Некоторые данные не требуют какого-либо преобразования; такие данные известны как прямое перемещение или передача данных .
Преобразование данных также включает в себя исправление и очистку данных, удаление неверных данных, формирование неполных данных и исправление ошибок данных. Он также включает в себя целостность данных и форматирование несовместимых данных перед загрузкой в систему DW.
Загрузка данных в систему DW
Это включает загрузку данных в систему DW для аналитической отчетности и информации. Целевой системой может быть простой плоский файл с разделителями или хранилище данных.
Функция ETL Tool
Типичное хранилище данных на основе инструментов ETL для выполнения своих функций использует промежуточную область, интеграцию данных и уровни доступа. Обычно это трехслойная архитектура.
-
Промежуточный уровень — промежуточный слой или промежуточная база данных используются для хранения данных, извлеченных из различных систем исходных данных.
-
Уровень интеграции данных — уровень интеграции преобразует данные из промежуточного уровня и перемещает данные в базу данных, где данные объединяются в иерархические группы, часто называемые измерениями , в факты и агрегируют факты . Комбинация таблиц фактов и измерений в системе DW называется схемой .
-
Уровень доступа. Уровень доступа используется конечными пользователями для получения данных для аналитических отчетов и информации.
Промежуточный уровень — промежуточный слой или промежуточная база данных используются для хранения данных, извлеченных из различных систем исходных данных.
Уровень интеграции данных — уровень интеграции преобразует данные из промежуточного уровня и перемещает данные в базу данных, где данные объединяются в иерархические группы, часто называемые измерениями , в факты и агрегируют факты . Комбинация таблиц фактов и измерений в системе DW называется схемой .
Уровень доступа. Уровень доступа используется конечными пользователями для получения данных для аналитических отчетов и информации.
На следующем рисунке показано, как три слоя взаимодействуют друг с другом.