Учебники

36) Интервью с ETL.

Ниже приведены часто задаваемые вопросы в интервью для новичков, а также опытных тестировщиков и разработчиков ETL.

1) Что такое ETL?

В архитектуре хранилищ данных ETL является важным компонентом, который управляет данными для любого бизнес-процесса. ETL расшифровывается как Extract, Transform и Load . Извлечение выполняет процесс чтения данных из базы данных. Преобразование выполняет преобразование данных в формат, который может быть подходящим для отчетности и анализа. В то время как load выполняет процесс записи данных в целевую базу данных.

2) Объясните, что включает в себя операции тестирования ETL?

ETL тестирование включает в себя

  • Проверьте правильность преобразования данных в соответствии с бизнес-требованиями.
  • Убедитесь, что проецируемые данные загружаются в хранилище данных без усечения и потери данных.
  • Убедитесь, что приложение ETL сообщает о недопустимых данных и заменяет их значениями по умолчанию
  • Убедитесь, что данные загружаются в ожидаемые сроки для улучшения масштабируемости и производительности.

3) Укажите, каковы типы приложений хранилища данных и в чем разница между интеллектуальным анализом данных и хранилищем данных?

Типы приложений хранилища данных:

  • Обработка информации
  • Аналитическая обработка
  • Сбор данных

Интеллектуальный анализ данных можно определить как процесс извлечения скрытой прогнозной информации из больших баз данных и интерпретации данных, в то время как хранилище данных может использовать шахту данных для аналитической обработки данных более быстрым способом. Хранилище данных — это процесс объединения данных из нескольких источников в одно общее хранилище.

4) Какие инструменты используются в ETL?

  • Cognos Decision Stream
  • Oracle Warehouse Builder
  • Бизнес Объекты XI
  • SAS бизнес склад
  • SAS Enterprise ETL сервер

5) Что такое факт? Какие типы фактов?

Это центральный компонент многомерной модели, который содержит меры для анализа. Факты связаны с размерами.

Типы фактов

  • Аддитивные факты
  • Полуаддитивные факты
  • Неаддитивные факты

6) Объясните, что такое кубы и кубы OLAP?

Кубы — это единицы обработки данных, состоящие из таблиц фактов и измерений из хранилища данных. Это обеспечивает многомерный анализ.

OLAP означает обработку онлайн-аналитики, а куб OLAP хранит большие данные в многомерной форме для целей отчетности. Он состоит из фактов, называемых мерами, классифицированными по измерениям.

7) Объясните, что такое уровень трассировки и какие типы?

Уровень трассировки — это объем данных, хранящихся в файлах журнала. Уровень трассировки можно классифицировать на два нормальных и подробных. Нормальный уровень подробно объясняет уровень трассировки, а подробный — уровни трассировки в каждой строке.

8) Объясните, что такое Зерно Факта?

Факт зерна может быть определен как уровень, на котором хранится информация факта. Это также известно как факт гранулярности

9) Объясните, что такое схема фактов и что такое Меры?

Таблица фактов без мер называется таблицей фактов без фактов. Он может просматривать количество происходящих событий. Например, он используется для записи события, такого как количество сотрудников в компании.

Числовые данные, основанные на столбцах в таблице фактов, известны как меры

10) Объясните, что такое трансформация?

Преобразование — это объект репозитория, который генерирует, изменяет или передает данные. Преобразование бывает двух типов: активное и пассивное.

11) Объясните использование преобразования «Уточняющий запрос»?

Преобразование «Уточняющий запрос» полезно для

  • Получение связанного значения из таблицы с использованием значения столбца
  • Обновить медленно меняющуюся таблицу размеров
  • Убедитесь, что записи уже существуют в таблице

12) Объясните, что такое разбиение, разбиение по хэшам и циклическое разбиение?

Для повышения производительности транзакции подразделяются, это называется разделением. Разделение на части позволяет Informatica Server создавать множественные подключения к различным источникам.

Типы перегородок

Круглый Робин

  • По данным информатики данные распределяются равномерно по всем разделам
  • В каждом разделе, где количество строк для обработки примерно одинаково, это разделение применимо

Разделение хэша:

  • В целях разделения ключей для группировки данных между разделами сервер Informatica применяет хеш-функцию
  • Он используется, когда необходимо обеспечить группы процессов с одним и тем же ключом разделения в одном и том же разделе.

13) Укажите, в чем заключается преимущество использования целевого адаптера DataReader?

Преимущество использования целевого адаптера DataReader заключается в том, что он заполняет набор записей ADO (состоит из записей и столбцов) в памяти и предоставляет данные из задачи DataFlow, реализуя интерфейс DataReader, чтобы другие приложения могли использовать данные.

14) Использование служб SSIS (SQL Server Integration Service), каковы возможные способы обновления таблицы?

Для обновления таблицы с использованием служб SSIS возможны следующие способы:

  • Используйте команду SQL
  • Используйте промежуточный стол
  • Использовать кеш
  • Используйте задачу скрипта
  • Используйте полное имя базы данных для обновления, если используется MSSQL

15) В случае, если у вас есть источник не-OLEDB (Object Linking and Embedding Database) для поиска, что бы вы сделали?

В случае, если у вас есть источник не-OLEBD для поиска, вы должны использовать Cache для загрузки данных и использовать его в качестве источника

16) В каком случае вы используете динамический кеш и статический кеш в подключенных и неподключенных преобразованиях?

  • Динамический кэш используется, когда необходимо обновить основную таблицу и медленно изменяющиеся измерения (SCD) типа 1
  • Для плоских файлов используется статический кеш

17) Объясните, в чем разница между поиском без подключения и подключением?

Подключенный поиск

Несвязанный поиск

  • Подключенный поиск участвует в отображении

— Используется, когда используется функция поиска вместо преобразования выражения при отображении

  • Несколько значений могут быть возвращены

— возвращает только один выходной порт

  • Может быть связан с другими преобразованиями и возвращает значение
  • Другое преобразование не может быть связано
  • Статический или динамический кеш можно использовать для подключенного поиска
  • Unconnected как только статический кеш
  • Поиск с подключением поддерживает определенные пользователем значения по умолчанию
  • Несвязанный поиск не поддерживает определенные пользователем значения по умолчанию
  • В Connected Lookup несколько столбцов можно вернуть из одной строки или вставить в кеш динамического поиска
  • Несвязанный поиск назначает один порт возврата и возвращает один столбец из каждой строки

18) Объясните, что такое представление источника данных?

Представление источника данных позволяет определить реляционную схему, которая будет использоваться в базах данных служб анализа. Вместо того чтобы непосредственно из объектов источника данных, измерения и кубы создаются из представлений источника данных.

19) Объясните, в чем разница между инструментами OLAP и ETL?

Разница между инструментами ETL и OLAP заключается в том, что

Инструмент ETL предназначен для извлечения данных из устаревших систем и загрузки в указанную базу данных с некоторым процессом очистки данных.

Пример: этап данных, Informatica и т. Д.

В то время как OLAP предназначен для целей отчетности в данных OLAP, доступных в разнонаправленной модели.

Пример: бизнес-объекты, Cognos и т. Д.

20) Как вы можете извлечь данные SAP с помощью Informatica?

  • С опцией Power Connect вы извлекаете данные SAP с использованием Informatica
  • Установите и настройте инструмент PowerConnect
  • Импортируйте источник в Source Analyzer. Между Informatica и SAP Powerconnect выступают в роли шлюза. Следующим шагом является создание кода ABAP для сопоставления, тогда только данные могут извлекать данные из SAP.
  • Для подключения и импорта источников из внешних систем используется Power Connect.

21) Укажите, в чем разница между Power Mart и Power Center?

Центр силы

Power Mart

  • Предположим, для обработки огромного объема данных
  • Предположим, для обработки небольшого объема данных
  • Он поддерживает источники ERP, такие как SAP, People Soft и т. Д.
  • Не поддерживает источники ERP
  • Поддерживает локальное и глобальное хранилище
  • Поддерживает локальный репозиторий
  • Преобразует локальный в глобальный репозиторий
  • У него нет спецификации для преобразования локального в глобальный репозиторий

22) Объясните, что такое область подготовки и какова цель области подготовки?

Подготовка данных — это область, в которой вы временно храните данные на сервере хранилища данных. Подготовка данных включает следующие шаги

  • Извлечение исходных данных и преобразование данных (реструктуризация)
  • Преобразование данных (очистка данных, преобразование значений)
  • Суррогатное назначение клавиш

23) Что такое схема шины?

Для различных бизнес-процессов для определения общих измерений используется схема BUS. Это идет с согласованными измерениями наряду со стандартизированным определением информации

24) Объясните, что такое очистка данных?

Очистка данных — это процесс удаления данных из хранилища данных. Удаляет ненужные данные как строки с нулевыми значениями или лишними пробелами.

25) Объясните, что такое объекты схемы?

Объекты схемы — это логическая структура, которая напрямую ссылается на данные базы данных. Объекты схемы включают в себя таблицы, представления, синонимы последовательности, индексы, кластеры, пакеты функций и ссылки на базы данных.

26) Объясните эти термины Session, Worklet, Mapplet и Workflow?

  • Mapplet: он организует или создает наборы преобразований
  • Рабочий лист: он представляет собой определенный набор заданных задач
  • Рабочий процесс: это набор инструкций, которые сообщают серверу, как выполнять задачи
  • Сессия: это набор параметров, который сообщает серверу, как перемещать данные из источников в целевой