Учебники

5) ETL против ELT

Что такое ETL?

ETL — это сокращение от Extract, Transform и Load. В этом процессе инструмент ETL извлекает данные из разных исходных систем РСУБД, затем преобразует данные, например, применяет вычисления, конкатенации и т. Д., А затем загружает данные в систему хранилища данных.

В ETL данные поступают из источника в цель. В ETL механизм преобразования процессов заботится о любых изменениях данных.

Что такое ELT?

ELT — это другой метод рассмотрения инструментального подхода к перемещению данных. Вместо преобразования данных перед их записью ELT позволяет целевой системе выполнить преобразование. Данные сначала копируются в цель, а затем преобразуются на место.

ELT обычно используется с базами данных без Sql, такими как кластер Hadoop, устройство обработки данных или облачная установка.

Разница между ETL и ELT

Процессы ETL и ELT отличаются по следующим параметрам:

параметры ETL ELT
Обработать Данные преобразуются на промежуточном сервере и затем передаются в базу данных Datawarehouse. Данные остаются в БД хранилища данных.
Использование кода Используется для

  • Вычислительные преобразования
  • Небольшое количество данных
Используется для больших объемов данных
преобразование Преобразования выполняются в сервере ETL / области подготовки. Преобразования выполняются в целевой системе
Время-Load Данные сначала загружаются в промежуточную, а затем загружаются в целевую систему. Время интенсивно. Данные загружаются в целевую систему только один раз. Быстрее.
Время-трансформация Процесс ETL должен ждать завершения преобразования. По мере увеличения размера данных время преобразования увеличивается. В процессе ELT скорость никогда не зависит от размера данных.
Время обслуживания Это требует высокого обслуживания, так как вам нужно выбрать данные для загрузки и преобразования. Низкие эксплуатационные расходы, так как данные всегда доступны.
Сложность реализации На ранней стадии проще реализовать. Для реализации процесса ELT организация должна иметь глубокие знания инструментов и экспертных навыков.
Поддержка хранилища данных Модель ETL, используемая для локальных, реляционных и структурированных данных. Используется в масштабируемой облачной инфраструктуре, которая поддерживает структурированные, неструктурированные источники данных.
Поддержка озера данных Не поддерживает. Позволяет использовать озеро данных с неструктурированными данными.
сложность Процесс ETL загружает только важные данные, определенные во время разработки. Этот процесс включает в себя разработку из вывода в обратном направлении и загрузку только соответствующих данных.
Стоимость Высокие затраты для малого и среднего бизнеса. Низкие входные расходы при использовании онлайн-ПО в качестве сервисной платформы.
Lookups В процессе ETL как факты, так и измерения должны быть доступны в области подготовки. Все данные будут доступны, поскольку извлечение и загрузка выполняются одним действием.
Скопления Сложность возрастает с дополнительным объемом данных в наборе данных. Мощь целевой платформы позволяет быстро обрабатывать значительные объемы данных.
вычисления Перезаписывает существующий столбец или Необходимо добавить набор данных и отправить на целевую платформу. Легко добавить вычисляемый столбец в существующую таблицу.
зрелость Процесс используется более двух десятилетий. Это хорошо документировано, и лучшие практики легко доступны. Относительно новая концепция и комплекс для реализации.
аппаратные средства Большинство инструментов имеют уникальные требования к оборудованию, которые стоят дорого. Быть стоимостью оборудования Saas не проблема.
Поддержка неструктурированных данных В основном поддерживает реляционные данные Поддержка неструктурированных данных легко доступны.

КЛЮЧЕВАЯ РАЗНИЦА

  • ETL обозначает извлечение, преобразование и загрузку, в то время как ELT обозначает извлечение, загрузку, преобразование.
  • ETL загружает данные сначала на промежуточный сервер, а затем в целевую систему, тогда как ELT загружает данные непосредственно в целевую систему.
  • Модель ETL используется для локальных, реляционных и структурированных данных, в то время как ELT используется для масштабируемых облачных структурированных и неструктурированных источников данных.
  • ETL в основном используется для небольшого количества данных, тогда как ELT используется для больших объемов данных.
  • ETL не обеспечивает поддержку озера данных, в то время как ELT обеспечивает поддержку озера данных.
  • ETL легко внедрить, в то время как ELT требует нишевых навыков для внедрения и поддержки.