Учебники

SAP HANA — Профилирование данных SQL

Задача «Профилирование данных SQL» используется для понимания и анализа данных из нескольких источников данных. Он используется для удаления неверных, неполных данных и предотвращения проблем с качеством данных до их загрузки в хранилище данных.

Вот преимущества задач SQL Data Profiling —

  • Это помогает более эффективно анализировать исходные данные.

  • Это помогает лучше понять исходные данные.

  • Он удаляет неверные, неполные данные и улучшает качество данных перед их загрузкой в ​​хранилище данных.

  • Используется с заданием извлечения, преобразования и загрузки.

Это помогает более эффективно анализировать исходные данные.

Это помогает лучше понять исходные данные.

Он удаляет неверные, неполные данные и улучшает качество данных перед их загрузкой в ​​хранилище данных.

Используется с заданием извлечения, преобразования и загрузки.

Задача «Профилирование данных» проверяет профили, которые помогают понять источник данных и выявить проблемы в данных, которые необходимо исправить.

Вы можете использовать задачу «Профилирование данных» в пакете служб Integration Services для профилирования данных, хранящихся в SQL Server, и для выявления потенциальных проблем с качеством данных.

Примечание. Задача «Профилирование данных» работает только с источниками данных SQL Server и не поддерживает какие-либо другие источники данных на основе файлов или сторонних производителей.

Требование доступа

Чтобы запустить пакет, содержащий задачу «Профилирование данных», учетная запись пользователя должна иметь разрешения на чтение / запись с разрешениями CREATE TABLE для базы данных tempdb.

Data Profiler Viewer

Data Profile Viewer используется для просмотра результатов профилировщика. Средство просмотра профиля данных также поддерживает возможность детализации, чтобы помочь вам понять проблемы с качеством данных, выявленные в выходных данных профиля. Эта возможность детализации отправляет прямые запросы в исходный источник данных.

Настройка и проверка задачи профилирования данных

Настройка задачи профилирования данных

Он включает в себя выполнение пакета, содержащего задачу Data Profiling для вычисления профилей. Задача сохраняет вывод в формате XML в файл или переменную пакета.

Просмотр профилей

Чтобы просмотреть профили данных, отправьте вывод в файл, а затем используйте средство просмотра профилей данных. Это средство просмотра является автономной утилитой, которая отображает выходные данные профиля в кратком и подробном формате с дополнительной возможностью детализации.

Профилирование данных — параметры конфигурации

Задача «Профилирование данных» имеет следующие удобные параметры конфигурации:

Подстановочные столбцы

При настройке запроса профиля задача принимает подстановочный знак «*» вместо имени столбца. Это упрощает настройку и облегчает обнаружение характеристик незнакомых данных. Когда задача выполняется, она профилирует каждый столбец с соответствующим типом данных.

Быстрый профиль

Вы можете выбрать Quick Profile для быстрой настройки задачи. Быстрый профиль профилирует таблицу или представление с использованием всех стандартных профилей и настроек.

Задача «Профилирование данных» может вычислять восемь различных профилей данных. Пять из этих профилей могут проверять отдельные столбцы, а остальные три — анализировать несколько столбцов или взаимосвязи между столбцами.

Профилирование данных — выходы задачи

Задача «Профилирование данных» выводит выбранные профили в формат XML, структурированный как схема DataProfile.xsd.

Вы можете сохранить локальную копию схемы и просмотреть локальную копию схемы в Microsoft Visual Studio или другом редакторе схемы, в редакторе XML или в текстовом редакторе, таком как Блокнот.