Учебники

Тестирование ETL — Введение

Данные в системе хранилища данных загружаются с помощью инструмента ETL (извлечение, преобразование, загрузка). Как следует из названия, он выполняет следующие три операции —

  • Извлекает данные из вашей транзакционной системы, которая может быть Oracle, Microsoft или любой другой реляционной базой данных,

  • Преобразует данные, выполняя операции очистки данных, а затем

  • Загружает данные в хранилище данных OLAP.

Извлекает данные из вашей транзакционной системы, которая может быть Oracle, Microsoft или любой другой реляционной базой данных,

Преобразует данные, выполняя операции очистки данных, а затем

Загружает данные в хранилище данных OLAP.

Вы также можете извлечь данные из плоских файлов, таких как электронные таблицы и файлы CSV, используя инструмент ETL, и загрузить их в хранилище данных OLAP для анализа данных и составления отчетов. Давайте возьмем пример, чтобы понять это лучше.

пример

Предположим, что есть производственная компания, имеющая несколько отделов, таких как отдел продаж, отдел кадров, управление материальными потоками, EWM и т. Д. Все эти отделы имеют отдельные базы данных, которые они используют для хранения информации о своей работе, и каждая база данных имеет свою технологию, ландшафт, таблицу имена, столбцы и т. д. Теперь, если компания хочет проанализировать исторические данные и сгенерировать отчеты, все данные из этих источников данных следует извлечь и загрузить в хранилище данных, чтобы сохранить его для аналитической работы.

Инструмент ETL извлекает данные из всех этих разнородных источников данных, преобразует их (например, применяет вычисления, объединяет поля, ключи, удаляет неправильные поля данных и т. Д.) И загружает их в хранилище данных. Позже вы сможете использовать различные инструменты бизнес-аналитики (BI) для создания значимых отчетов, панелей мониторинга и визуализаций с использованием этих данных.

Разница между ETL и BI-инструментами

Инструмент ETL используется для извлечения данных из различных источников данных, преобразования данных и загрузки их в систему DW; однако инструмент BI используется для создания интерактивных и специальных отчетов для конечных пользователей, информационной панели для высшего руководства, визуализации данных для ежемесячных, ежеквартальных и ежегодных заседаний совета директоров.

Наиболее распространенными инструментами ETL являются — SAP BO Data Services (BODS), Informatica — Power Center, Microsoft — SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL с открытым исходным кодом и т. Д.

Некоторые популярные BI-инструменты включают в себя — SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition и т. Д.

Процесс ETL

Давайте теперь немного подробнее обсудим ключевые этапы процедуры ETL —

Извлечение данных

Он включает в себя извлечение данных из разных разнородных источников данных. Извлечение данных из транзакционной системы зависит от требований и используемого ETL-инструмента. Обычно это выполняется путем выполнения запланированных заданий в нерабочее время, например, в ночное время или в выходные дни.

Извлечение данных

Преобразование данных

Это включает преобразование данных в подходящий формат, который может быть легко загружен в систему DW. Преобразование данных включает применение вычислений, объединений и определение первичных и внешних ключей данных. Например, если вы хотите% от общего дохода, которого нет в базе данных, вы примените формулу% в преобразовании и загрузите данные. Точно так же, если у вас есть имя и фамилия пользователей в разных столбцах, вы можете применить объединенную операцию перед загрузкой данных. Некоторые данные не требуют какого-либо преобразования; такие данные известны как прямое перемещение или передача данных .

Преобразование данных также включает в себя исправление и очистку данных, удаление неверных данных, формирование неполных данных и исправление ошибок данных. Он также включает в себя целостность данных и форматирование несовместимых данных перед загрузкой в ​​систему DW.

Загрузка данных в систему DW

Это включает загрузку данных в систему DW для аналитической отчетности и информации. Целевой системой может быть простой плоский файл с разделителями или хранилище данных.

Функция ETL Tool

Типичное хранилище данных на основе инструментов ETL для выполнения своих функций использует промежуточную область, интеграцию данных и уровни доступа. Обычно это трехслойная архитектура.

  • Промежуточный уровень — промежуточный слой или промежуточная база данных используются для хранения данных, извлеченных из различных систем исходных данных.

  • Уровень интеграции данныхуровень интеграции преобразует данные из промежуточного уровня и перемещает данные в базу данных, где данные объединяются в иерархические группы, часто называемые измерениями , в факты и агрегируют факты . Комбинация таблиц фактов и измерений в системе DW называется схемой .

  • Уровень доступа. Уровень доступа используется конечными пользователями для получения данных для аналитических отчетов и информации.

Промежуточный уровень — промежуточный слой или промежуточная база данных используются для хранения данных, извлеченных из различных систем исходных данных.

Уровень интеграции данныхуровень интеграции преобразует данные из промежуточного уровня и перемещает данные в базу данных, где данные объединяются в иерархические группы, часто называемые измерениями , в факты и агрегируют факты . Комбинация таблиц фактов и измерений в системе DW называется схемой .

Уровень доступа. Уровень доступа используется конечными пользователями для получения данных для аналитических отчетов и информации.

На следующем рисунке показано, как три слоя взаимодействуют друг с другом.