19) Руководство по DataStage

Что такое DataStage?

Datastage — это инструмент ETL, который извлекает данные, преобразует и загружает данные из источника в цель. Источники данных могут включать последовательные файлы, индексированные файлы, реляционные базы данных, внешние источники данных, архивы, корпоративные приложения и т. Д. DataStage облегчает бизнес-анализ, предоставляя качественные данные, помогающие получить бизнес-аналитику.

Datastage используется в большой организации в качестве интерфейса между различными системами. Он заботится о извлечении, переводе и загрузке данных из источника в целевой пункт назначения. Впервые он был запущен VMark в середине 90-х годов. После того как IBM приобрела DataStage в 2005 году, она была переименована в IBM WebSphere DataStage, а затем в IBM InfoSphere.

До настоящего времени на рынке были доступны различные версии Datastage: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft и так далее. Последним выпуском является IBM InfoSphere DataStage.

Информационный сервер IBM включает в себя следующие продукты,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
Директор по информационным службам IBM InfoSphere
IBM InfoSphere Information Analyzer
Информационный сервер IBM FastTrack
Бизнес-глоссарий IBM InfoSphere

Что вы узнаете: [ скрыть ]

Обзор DataStage

Datastage имеет следующие возможности.

Он может интегрировать данные из самого широкого диапазона корпоративных и внешних источников данных
Реализует правила проверки данных
Это полезно при обработке и преобразовании больших объемов данных.
Он использует масштабируемый подход параллельной обработки
Он может обрабатывать сложные преобразования и управлять несколькими процессами интеграции
Используйте прямое подключение к корпоративным приложениям в качестве источников или целей
Используйте метаданные для анализа и обслуживания
Работает в пакетном режиме, в режиме реального времени или как веб-сервис

В следующих разделах мы кратко опишем следующие аспекты IBM InfoSphere DataStage:

Преобразование данных
работы
Параллельная обработка

InfoSphere DataStage и QualityStage могут получать доступ к данным в корпоративных приложениях и источниках данных, таких как:

Реляционные базы данных
Базы данных мэйнфреймов
Бизнес и аналитические приложения
Базы данных планирования общеорганизационных ресурсов (ERP) или управления взаимоотношениями с клиентами (CRM)
Онлайн аналитическая обработка (OLAP) или базы данных управления производительностью

Типы этапов обработки

Работа IBM в сфере инфосферы состоит из отдельных этапов, которые связаны между собой. Он описывает поток данных из источника данных в цель данных. Обычно этап имеет минимум один вход данных и / или один выход данных. Однако некоторые этапы могут принимать более одного ввода и вывода данных на более чем один этап.

В проектном задании вы можете использовать следующие этапы:

Стадия трансформации
Ступень фильтра
Этап агрегатора
Этап удаления дубликатов
Присоединиться к стадии
Стадия поиска
Этап копирования
Этап сортировки
Контейнеры

Компоненты и архитектура DataStage

DataStage имеет четыре основных компонента, а именно:

Администратор: используется для задач администрирования. Это включает в себя настройку пользователей DataStage, настройку критериев очистки, а также создание и перемещение проектов.
Менеджер: это основной интерфейс репозитория DataStage. Он используется для хранения и управления метаданными многократного использования. Через менеджер DataStage можно просматривать и редактировать содержимое репозитория.
Дизайнер: интерфейс дизайна, используемый для создания приложений DataStage ИЛИ заданий. Он указывает источник данных, требуемое преобразование и место назначения данных. Задания компилируются для создания исполняемого файла, который запланирован директором и запущен сервером
Director: используется для проверки, планирования, выполнения и мониторинга заданий сервера DataStage и параллельных заданий.

Руководство по DataStage: полное руководство — Диаграмма архитектуры данных

Изображение выше объясняет, как IBM Infosphere DataStage взаимодействует с другими элементами платформы IBM Information Server. DataStage разделен на два раздела: общие компоненты и архитектура времени выполнения .

		мероприятия
Общий	Единый пользовательский интерфейс	Графический интерфейс используется для создания приложений InfoSphere DataStage (так называемые задания). Каждое задание определяет источники данных, необходимые преобразования и место назначения данных. Задания компилируются для создания параллельных потоков заданий и повторно используемых компонентов. Они планируются и выполняются InfoSphere DataStage и QualityStage Director. Клиент Designer управляет метаданными в хранилище. В то время как скомпилированные данные выполнения развернуты на уровне Information Server Engine.
	Общие службы	Услуги метаданных, такие как анализ воздействия и поиск Сервисы проектирования, поддерживающие разработку и сопровождение задач InfoSphere DataStage Службы выполнения, поддерживающие все функции InfoSphere DataStage
	Общая параллельная обработка	Движок запускает исполняемые задания, которые извлекают, преобразуют и загружают данные в самых разных настройках. Двигатель выбирает подход параллельной обработки и конвейерной обработки для обработки большого объема работ.
Архитектура времени выполнения	Сценарий по охране труда	Здесь описывается создание OSH (сценария оболочки оркестровки) и поток выполнения IBM, а также поток IBM Infosphere DataStage с использованием механизма информационного сервера. Это позволяет использовать графические методы «укажи и щелкни» для разработки рабочих процессов для извлечения, очистки, преобразования, интеграции и загрузки данных в целевые файлы.

Предварительные условия для инструмента Datastage

Для DataStage вам потребуется следующая настройка.

инфосферы
DataStage Server 9.1.2 или выше
Microsoft Visual Studio .NET 2010, экспресс-выпуск C ++
Клиент Oracle (полный клиент, а не мгновенный клиент) при подключении к базе данных Oracle
Клиент DB2 при подключении к базе данных DB2

Загрузка и установка InfoSphere Information Server

Чтобы получить доступ к DataStage, загрузите и установите последнюю версию IBM InfoSphere Server. Сервер поддерживает операционные системы AIX, Linux и Windows. Вы можете выбрать согласно требованию.

Для переноса ваших данных из более старой версии инфосферы в новую версию используется инструмент обмена ресурсами.

Установочные файлы

Для установки и настройки Infosphere Datastage у вас должны быть следующие файлы в вашей настройке.

Для Windows

EtlDeploymentPackage-окна-oracle.pkg
EtlDeploymentPackage-окна-db2.pkg

Для Linux

EtlDeploymentPackage-линукс-db2.pkg
EtlDeploymentPackage-линукс-oracle.pkg

Обработка данных изменений на этапе транзакции CDC Задание.

Служба InfoSphere CDC для базы данных отслеживает и фиксирует изменения из исходной базы данных.
В соответствии с определением репликации «InfoSphere CDC» передает данные изменений в «InfoSphere CDC для InfoSphere DataStage».
Сервер «InfoSphere CDC for InfoSphere DataStage» отправляет данные на «этап транзакции CDC» через сеанс TCP / IP. Сервер «InfoSphere CDC for InfoSphere DataStage» также отправляет сообщение COMMIT (вместе с информацией о закладках), чтобы отметить границу транзакции в захваченном журнале.
Для каждого сообщения COMMIT, отправляемого сервером «InfoSphere CDC for InfoSphere DataStage», «этап транзакции CDC» создает маркеры окончания волны (EOW). Эти маркеры отправляются по всем выходным ссылкам на целевую стадию соединителя базы данных.
Когда «этап соединителя целевой базы данных» получает маркер окончания волны на всех входных ссылках, он записывает информацию о закладках в таблицу закладок и затем фиксирует транзакцию в целевой базе данных.
Сервер «InfoSphere CDC for InfoSphere DataStage» запрашивает информацию о закладках из таблицы закладок в «целевой базе данных».
Сервер «InfoSphere CDC for InfoSphere DataStage» получает информацию о закладках.

Эта информация используется для,

Определите начальную точку в журнале транзакций, где изменения считываются при запуске репликации.
Чтобы определить, можно ли очистить существующий журнал транзакций

Настройка репликации SQL

Прежде чем начать с Datastage, вам нужно настроить базу данных. Вы создадите две базы данных DB2.

Один из них служит источником репликации и
Один как цель.

Вы также создадите две таблицы (Product и Inventory) и заполните их образцами данных. Затем вы можете проверить свою интеграцию между SQL Replication и Datastage.

В дальнейшем вы будете настраивать репликацию SQL путем создания управляющих таблиц, наборов подписок, регистраций и членов наборов подписок . Подробнее об этом мы узнаем в следующем разделе.

Здесь мы возьмем пример позиции «Розничные продажи» в качестве нашей базы данных и создадим две таблицы Inventory и Product. Эти таблицы будут загружать данные из источника в цель через эти наборы. ( управляющие таблицы, наборы подписок, регистрации и члены наборов подписок .)

Шаг 1) Создайте исходную базу данных, называемую SALES . Под этой базой данных создайте две таблицы product и Inventory .

Шаг 2) Выполните следующую команду, чтобы создать базу данных SALES.

db2 create database SALES

Шаг 3) Включите ведение архивных журналов для базы данных SALES. Также создайте резервную копию базы данных с помощью следующих команд.

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Шаг 4) В той же командной строке перейдите в подкаталог setupDB в каталоге sqlrepl-datastage-tutorial, который вы извлекли из загруженного сжатого файла.

Шаг 5) Используйте следующую команду, чтобы создать таблицу инвентаризации и импортировать данные в таблицу, выполнив следующую команду.

db2 импорт из инвентаря .ixf из ixf создать в инвентарь

Шаг 6) Создайте целевую таблицу. Назовите целевую базу данных как STAGEDB.

Поскольку теперь вы создали базу данных и источник, и цель, на следующем шаге мы увидим, как ее реплицировать.

Следующая информация может быть полезна при настройке источника данных ODBC .

Создание объектов репликации SQL

На рисунке ниже показано, как поток данных об изменениях доставляется из исходной в целевую базу данных. Вы создаете сопоставление источника с целью между таблицами, известными как члены набора подписок, и группируете участников в подписку .

Единица репликации в InfoSphere CDC (Change Data Capture) называется подпиской.

Изменения, сделанные в источнике, фиксируются в «Контрольной таблице захвата», которая отправляется в таблицу CD, а затем в таблицу назначения. В то время как прикладная программа будет иметь подробную информацию о строке, из которой необходимо внести изменения. Он также присоединится к таблице CD в наборе подписки.
Подписка содержит сведения о сопоставлении, которые определяют, как данные в исходном хранилище данных применяются к целевому хранилищу данных. Обратите внимание, что CDC теперь называется репликацией данных Infosphere .
Когда подписка выполняется, InfoSphere CDC фиксирует изменения в исходной базе данных. InfoSphere CDC доставляет данные об изменениях в цель и сохраняет информацию о точках синхронизации в таблице закладок в целевой базе данных.
InfoSphere CDC использует информацию о закладках для отслеживания хода выполнения задания InfoSphere DataStage.
В случае сбоя информация о закладке используется в качестве точки перезапуска. В нашем примере таблица ASN.IBMSNAP_FEEDETL хранит информацию о точке синхронизации, связанную с DataStage, которая используется для отслеживания хода выполнения DataStage.

В этом разделе вы должны сделать следующие вещи,

Создание таблиц CAPTURE CONTROL и таблиц APPLY CONTROL для хранения параметров репликации
Зарегистрируйте таблицы PRODUCT и INVENTORY в качестве источников репликации.
Создать набор подписки с двумя участниками
Создание членов набора подписок и целевых таблиц CCD

Используйте программу командной строки ASNCLP для настройки репликации SQL

Шаг 1) Найдите файл сценария crtCtlTablesCaptureServer.asnclp в каталоге sqlrepl-datastage-tutorial / setupSQLRep.

Шаг 2) В файле замените <db2-connect-ID> и «<пароль>» на свой идентификатор пользователя и пароль для подключения к базе данных SALES.

Шаг 3) Перейдите в каталог sqlrepl-datastage-tutorial / setupSQLRep и запустите скрипт. Используйте следующую команду. Команда подключится к базе данных SALES, сгенерирует SQL-скрипт для создания управляющих таблиц Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Шаг 4) Найдите файл сценария crtCtlTablesApplyCtlServer.asnclp в том же каталоге. Теперь замените два экземпляра <db2-connect-ID> и «<пароль>» на идентификатор пользователя и пароль для подключения к базе данных STAGEDB.

Шаг 5) Теперь в той же командной строке используйте следующую команду для создания управляющих таблиц.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Шаг 6) Найдите файлы сценария crtRegistration.asnclp и замените все экземпляры <db2-connect-ID> идентификатором пользователя для подключения к базе данных SALES. Также замените «<пароль>» на пароль подключения.

Шаг 7) Чтобы зарегистрировать исходные таблицы, используйте следующий скрипт. В рамках создания регистрации программа ASNCLP создаст две таблицы CD. CDPRODUCT И CDINVENTORY.

asnclp –f crtRegistration.asnclp

Команда CREATE REGISTRATION использует следующие параметры:

Дифференциальное обновление : оно предлагает Применить программу для обновления целевой таблицы только при изменении строк в исходной таблице
Изображение оба : эта опция используется для регистрации значения в исходном столбце до того, как произошло изменение, и одна для значения после изменения.

Шаг 8) Для подключения к целевой базе данных (STAGEDB) используйте следующие шаги.

Найдите файл crtTableSpaceApply.bat, откройте его в текстовом редакторе.
Замените <stagedb-connect-ID> и <stagedb-password> на идентификатор пользователя и пароль
В командном окне DB2 введите crtTableSpaceApply.bat и запустите файл.
Этот пакетный файл создает новое табличное пространство в целевой базе данных (STAGEDB)

Шаг 9) Найдите файлы сценариев crtSubscriptionSetAndAddMembers.asnclp и внесите следующие изменения.

Замените все экземпляры <sales-connect-ID> и <sales-password> на идентификатор пользователя и пароль для подключения к базе данных SALES (источник).
Замените все экземпляры <stagedb-connect-ID> и <stagedb-password> идентификатором пользователя для подключения к базе данных STAGEDB (цель).

После внесения изменений запустите сценарий для создания набора подписок (ST00), который группирует исходную и целевую таблицы. Сценарий также создает двух членов набора подписок и CCD (данные согласованных изменений) в целевой базе данных, в которой будут храниться измененные данные. Эти данные будут использованы Infosphere DataStage.

Шаг 10) Запустите сценарий для создания набора подписок, членов набора подписок и таблиц CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Различные варианты, используемые для создания набора подписки и двух членов, включают

Завершить на сгущенном
внешний
Загрузить тип импорта экспорт
Время непрерывно

Шаг 11) Из-за дефекта в инструментах администрирования репликации. Вам нужно выполнить другой пакетный файл, чтобы установить для столбца TARGET_CAPTURE_SCHEMA в управляющей таблице IBMSNAP_SUBS_SET значение null.

Найдите файл updateTgtCapSchema.bat. Откройте его в текстовом редакторе. Замените <stagedb-connect-ID> и <stagedb-password> на идентификатор пользователя для подключения к базе данных STAGEDB.
В командном окне DB2 введите команду updateTgtCapSchema.bat и выполните файл.

Создание файлов определений для сопоставления таблиц CCD с DataStage

Перед тем как выполнить репликацию на следующем шаге, нам нужно соединить таблицу CCD с DataStage. В этом разделе мы увидим, как соединить SQL с DataStage.

Для соединения таблицы CCD с DataStage необходимо создать файлы определения Datastage (.dxs). Формат файла .dsx используется DataStage для импорта и экспорта определений заданий. Вы будете использовать скрипт ASNCLP для создания двух файлов .dsx. Например, здесь мы создали два файла .dsx.

stagedb_AQ00_SET00_sJobs.dsx : создает последовательность заданий, которая направляет рабочий процесс четырех параллельных заданий.
stagedb_AQ00_SET00_pJobs.dsx : создает четыре параллельных задания

Программа ASNCLP автоматически сопоставляет столбец CCD с форматом столбца данных. Он поддерживается только тогда, когда ASNCLP работает в Windows, Linux или Unix.

Задания данных извлекают строки из таблицы CCD.

Одно задание устанавливает точку синхронизации, где DataStage остановился при извлечении данных из двух таблиц. Задание получает эту информацию, выбрав значение SYNCHPOINT для набора подписок ST00 из таблицы IBMSNAP_SUBS_SET и вставив его в столбец MAX_SYNCHPOINT таблицы IBMSNAP_FEEDETL.
Два задания, которые извлекают данные из таблиц PRODUCT_CCD и INVENTORY_CCD. Задания знают, какие строки начать извлекать, выбрав значения MIN_SYNCHPOINT и MAX_SYNCHPOINT из таблицы IBMSNAP_FEEDETL для набора подписок.

Начальная репликация

Чтобы начать репликацию, вы будете использовать следующие шаги. Когда таблицы CCD заполняются данными, это означает, что настройка репликации проверена. Для просмотра реплицированных данных в целевых таблицах CCD используйте графический интерфейс DB2 Control Center.

Шаг 1) Убедитесь, что DB2 работает, если нет, то используйте команду запуска db2 .

Шаг 2) Затем используйте команду asncap из приглашения операционной системы, чтобы запустить программу захвата. Например.

asncap capture_server=SALES

Приведенная выше команда указывает базу данных SALES в качестве сервера Capture. Держите окно команд открытым, пока выполняется захват.

Шаг 3) Теперь откройте новую командную строку. Затем запустите программу APPLY с помощью команды asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Команда задает базу данных STAGEDB в качестве управляющего сервера Apply (база данных, содержащая управляющие таблицы Apply)
AQ00 как квалификатор Apply (идентификатор для этого набора контрольных таблиц)

Оставьте окно командной строки открытым, когда Apply запущен.

Шаг 4) Теперь откройте другую командную строку и введите команду db2cc, чтобы запустить Центр управления DB2. Примите Центр управления по умолчанию.

Шаг 5) Теперь в левом дереве навигации откройте Все базы данных> STAGEDB и нажмите Таблицы. Дважды щелкните по имени таблицы (Product CCD), чтобы открыть таблицу. Это будет выглядеть примерно так.

Кроме того, вы также можете открыть таблицу CCD для инвентаризации.

Как создавать проекты в инструменте Datastage

Прежде всего, вы создадите проект в DataStage. Для этого вы должны быть администратором InfoSphere DataStage.

После завершения установки и репликации вам необходимо создать проект. В DataStage проекты — это метод организации ваших данных. Он включает в себя определение файлов данных, этапов и заданий сборки в конкретном проекте.

Чтобы создать проект в DataStage, выполните следующие действия.

Шаг 1) Запустите администратор DataStage и QualityStage. Затем нажмите Пуск> Все программы> IBM Information Server> Администратор IBM WebSphere DataStage и QualityStage.

Шаг 2) Для подключения к серверу DataStage с вашего клиента DataStage введите такие данные, как имя домена, идентификатор пользователя, пароль и информация о сервере

Шаг 3) В окне Администрирование WebSphere DataStage. Перейдите на вкладку «Проекты» и нажмите «Добавить».

Шаг 4) В окне Администрирование WebSphere DataStage введите такие данные, как

имя
Расположение файла
Нажмите «ОК»

Каждый проект содержит:

Задания DataStage
Встроенные компоненты. Это предопределенные компоненты, используемые в работе.
Пользовательские компоненты. Это настраиваемые компоненты, созданные с помощью DataStage Manager или DataStage Designer.

Мы увидим, как импортировать задания репликации в Datastage Infosphere.

Как импортировать задания репликации в Datastage и QualityStage Designer

Вы будете импортировать задания в клиенте IBM InfoSphere DataStage и QualityStage Designer. И вы выполняете их в клиенте IBM InfoSphere DataStage и QualityStage Director.

Дизайнер-клиент как пустой холст для строительных работ. Он извлекает, преобразовывает, загружает и проверяет качество данных. Он предоставляет инструменты, которые формируют основные строительные блоки задания. Это включает в себя

Этапы : он подключается к источникам данных для чтения или записи файлов и обработки данных.
Ссылки : Он связывает этапы, по которым проходят ваши данные

Этапы в клиенте InfoSphere DataStage и QualityStage Designer хранятся в палитре инструментов Designer.

В InfoSphere QualityStage включены следующие этапы:

Стадия расследования
Стадия стандартизации
Этап частоты совпадений
Матч с одним источником
Этап матча с двумя источниками
Выжить этап
Стадия оценки качества стандартизации (SQA)

Вы можете создавать 4 типа заданий в инфосфере DataStage.

Параллельная работа
Sequence Job
Работа на мэйнфреймах
Работа сервера

Давайте посмотрим шаг за шагом, как импортировать файлы заданий репликации.

Шаг 1) Запустите DataStage и QualityStage Designer. Нажмите Пуск> Все программы> IBM Information Server> IBM WebSphere DataStage и QualityStage Designer.

Шаг 2) В окне «Присоединить к проекту» введите следующие данные.

Домен
Имя пользователя
пароль
название проекта
Хорошо

Шаг 3) Теперь из меню «Файл» нажмите «Импорт» -> « Компоненты DataStage».

Откроется новое окно импорта репозитория DataStage.

В этом окне просмотрите файл STAGEDB_AQ00_ST00_sJobs.dsx, который мы создали ранее
Выберите опцию «Импортировать все».
Установите флажок «Выполнить анализ воздействия».
Нажмите «ОК».

После импорта задания DataStage создаст задание STAGEDB_AQ00_ST00_sequence.

Шаг 4) Выполните те же шаги, чтобы импортировать файл STAGEDB_AQ00_ST00_pJobs.dsx . Этот импорт создает четыре параллельных задания.

Шаг 5) Под панелью репозитория Designer -> Открыть папку SQLREP. Внутри папки вы увидите Sequence Job и четыре параллельных задания.

Шаг 6) Чтобы увидеть последовательность работы. Перейдите в дерево репозитория, щелкните правой кнопкой мыши на задании STAGEDB_AQ00_ST00_sequence и выберите Изменить. Он покажет рабочий процесс четырех параллельных заданий, которыми управляет последовательность заданий.

Каждая иконка является сценой,

Этап getExtractRange : обновляет таблицу IBMSNAP_FEEDETL. Он установит начальную точку для извлечения данных в точку, в которой DataStage извлекал последние строки, и установит конечную точку для последней транзакции, которая была обработана для набора подписки.
getExtractRangeSuccess : эта стадия передает начальные точки на стадию extractFromINVENTORY_CCD и extractFromPRODUCT_CCD
AllExtractsSuccess: этот этап гарантирует, что оба extractFromINVENTORY_CCD и extractFromPRODUCT_CCD завершены успешно. Затем передает точки синхронизации для последних строк, которые были извлечены на этапе setRangeProcessed.
Этап setRangeProcessed : обновляет таблицу IBMSNAP_FEEDETL. Итак, DataStage знает, с чего начать следующий раунд извлечения данных

Шаг 7) Чтобы увидеть параллельные задания. Щелкните правой кнопкой мыши STAGEDB_ASN_INVENTORY_CCD и выберите изменить в репозитории. Откроется окно, как показано ниже.

Здесь на рисунке выше видно, что данные из таблицы CCD Inventory и сведения о точках синхронизации из таблицы FEEDETL отображаются на этапе Lookup_6.

Создание подключения к данным из DataStage с базой данных STAGEDB

Теперь следующим шагом будет создание соединения данных между InfoSphere DataStage и целевой базой данных SQL Replication. Он содержит таблицы CCD.

В DataStage вы используете объекты подключения к данным со связанными этапами соединителя, чтобы быстро определить соединение с источником данных в проекте задания.

Шаг 1) STAGEDB содержит как управляющие таблицы Apply, которые DataStage использует для синхронизации извлечения данных, так и таблицы CCD, из которых извлекаются данные. Используйте следующие команды

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Примечание : IP-адрес системы, где была создана STAGEDB

Шаг 2) Нажмите «Файл»> «Создать»> «Другие»> «Подключение данных».

Шаг 3) У вас будет окно с двумя вкладками: Параметры и Общие.

Шаг 4) На этом этапе

В общем, вкладка, назовите данные подключения sqlreplConnect
На вкладке «Параметры», как показано ниже

Нажмите кнопку обзора рядом с полем «Подключиться с использованием типа этапа» и в
В открывшемся окне перейдите в дерево репозитория в Типы этапов -> Параллельный—> База данных —-> Коннектор DB2.
Нажмите Открыть.

Шаг 5) В таблице параметров подключения введите такие данные, как

Строка соединения : STAGEDB2

Имя пользователя : идентификатор пользователя для подключения к базе данных STAGEDB

Пароль : Пароль для подключения к базе данных STAGEDB

Экземпляр : имя экземпляра DB2, который содержит базу данных STAGEDB

Шаг 6) В следующем окне сохраняем данные подключения. Нажмите на кнопку «Сохранить».

Импорт определений таблиц из STAGEDB в DataStage

На предыдущем этапе мы увидели, что InfoSphere DataStage и база данных STAGEDB связаны. Теперь импортируйте определение столбца и другие метаданные для таблиц PRODUCT_CCD и INVENTORY_CCD в информационный сервер.

В окне дизайнера выполните следующие действия.

Шаг 1) Выберите «Импорт»> «Определения таблиц»> «Мастер запуска коннектора».

Шаг 2) На странице выбора коннектора мастера выберите Коннектор DB2 и нажмите Далее.

Шаг 3) Нажмите «загрузить» на странице сведений о подключении. Это заполнит поля мастера информацией о соединении данных, которое вы создали в предыдущей главе.

Шаг 4) Нажмите Проверить соединение на той же странице. Это побудит DataStage попытаться подключиться к базе данных STAGEDB. Вы можете увидеть сообщение «соединение успешно». Нажмите кнопку «Далее.

Шаг 5) Убедитесь, что на странице расположения источника данных поля Имя хоста и Имя базы данных заполнены правильно. Затем нажмите «Далее».

Шаг 6) На странице схемы. Введите схему управляющих таблиц Apply (ASN) или убедитесь, что схема ASN предварительно заполнена в поле схемы. Затем нажмите «Далее». На странице выбора будет показан список таблиц, определенных в схеме ASN.

Шаг 7) Первая таблица, из которой нам нужно импортировать метаданные, — это IBMSNAP_FEEDETL, управляющая таблица Apply. Он содержит подробную информацию о точках синхронизации, которая позволяет DataStage отслеживать, какие строки он извлек из таблиц CCD. Выберите IBMSNAP_FEEDETL и нажмите «Далее».

Шаг 8) Завершить импорт определения таблицы IBMSNAP_FEEDETL. Нажмите «Импорт», а затем в открывшемся окне нажмите «Открыть».

Шаг 9) Повторите шаги 1-8 еще два раза, чтобы импортировать определения для таблицы PRODUCT_CCD, а затем таблицы INVENTORY_CCD.

ПРИМЕЧАНИЕ . При импорте определений для инвентаря и продукта убедитесь, что вы изменили схемы с ASN на схему, в которой были созданы PRODUCT_CCD и INVENTORY_CCD.

Теперь DataStage содержит все детали, необходимые для подключения к целевой базе данных SQL Replication.

Настройка свойств для заданий DataStage

Для каждого из четырех параллельных заданий DataStage, которые у нас есть, он содержит один или несколько этапов, которые связаны с базой данных STAGEDB. Вам необходимо изменить этапы, чтобы добавить информацию о соединении и ссылку на файлы набора данных, которые заполняет DataStage.

Этапы имеют предопределенные свойства, которые можно редактировать. Здесь мы изменим некоторые из этих свойств для параллельного задания STAGEDB_ASN_PRODUCT_CCD_extract.

Шаг 1) Просмотрите дерево репозитория Designer. В папке SQLREP выберите параллельное задание STAGEDB_ASN_PRODUCT_CCD_extract. Для редактирования щелкните правой кнопкой мыши на задании. Окно дизайна параллельной работы открывается в палитре дизайнеров.

Шаг 2) Найдите зеленый значок. Этот значок обозначает стадию коннектора DB2. Используется для извлечения данных из таблицы CCD. Дважды щелкните значок. Откроется окно редактора сцены.

Шаг 3) В редакторе нажмите «Загрузить», чтобы заполнить поля информацией о подключении. Чтобы закрыть редактор сцены и сохранить изменения, нажмите кнопку «ОК».

Шаг 4) Теперь вернитесь в окно разработки для параллельного задания STAGEDB_ASN_PRODUCT_CCD_extract. Найдите значок для этапа соединителя getSynchPoints DB2. Затем дважды щелкните значок.

Шаг 5) Теперь нажмите кнопку загрузки, чтобы заполнить поля информацией о подключении.

ПРИМЕЧАНИЕ . Если вы используете базу данных, отличную от STAGEDB, в качестве сервера управления Apply. Затем выберите опцию загрузки информации о соединении для этапа getSynchPoints, который взаимодействует с управляющими таблицами, а не с таблицей CCD.

Шаг 6) На этом этапе

Создайте пустой текстовый файл в системе, в которой работает InfoSphere DataStage.
Назовите этот файл как productdataset.ds и запишите, где вы его сохранили.
DataStage запишет изменения в этот файл после извлечения изменений из таблицы CCD.
Наборы данных или файл, которые используются для перемещения данных между связанными заданиями, называются постоянными наборами данных. Он представлен этапом DataSet.

Шаг 7) Теперь откройте редактор сцены в окне дизайна и дважды щелкните значок insert_into_a_dataset. Это откроет другое окно.

Шаг 8) В этом окне

На вкладке свойств убедитесь, что папка Target открыта и свойство File = DATASETNAME выделено.
Справа у вас будет поле для файла
Введите полный путь к файлу productdataset.ds
Нажмите «ОК».

Вы обновили все необходимые свойства для таблицы CCD продукта. Закройте окно дизайна и сохраните все изменения.

Шаг 9) Теперь найдите и откройте параллельное задание STAGEDB_ASN_INVENTORY_CCD_extract из панели репозитория в Designer и повторите шаги 3-8.

ПРИМЕЧАНИЕ :

Вы должны загрузить информацию о соединении для базы данных сервера управления в редактор этапа для этапа getSynchPoints. Если ваш сервер управления не STAGEDB.
Для параллельных заданий STAGEDB_ST00_AQ00_getExtractRange и STAGEDB_ST00_AQ00_markRangeProcessed откройте все этапы коннектора DB2. Затем используйте функцию загрузки, чтобы добавить информацию о соединении для базы данных STAGEDB.

Компиляция и запуск заданий DataStage

Когда задание DataStage готово к компиляции, Designer проверяет дизайн задания, просматривая входные данные, преобразования, выражения и другие детали.

Когда компиляция задания выполнена успешно, она готова к запуску. Мы скомпилируем все пять заданий, но запустим только «последовательность заданий». Это потому, что это задание контролирует все четыре параллельных задания.

Шаг 1) В папке SQLREP. Выберите каждое из пяти заданий (Cntrl + Shift). Затем щелкните правой кнопкой мыши и выберите вариант составления нескольких заданий.

Шаг 2) В мастере компиляции DataStage будет выбрано пять заданий. Нажмите кнопку «Далее.

Шаг 3) Начинается компиляция и отображается сообщение «Успешно скомпилировано».

Шаг 4) Теперь запустите DataStage и QualityStage Director. Выберите Пуск> Все программы> IBM Information Server> IBM WebSphere DataStage и QualityStage Director.

Шаг 5) В панели навигации проекта слева. Нажмите на папку SQLREP. Это приводит все пять заданий в таблицу статуса директора.

Шаг 6) Выберите задание STAGEDB_AQ00_S00_sequence. В строке меню выберите «Работа»> «Выполнить сейчас».

После завершения компиляции вы увидите готовый статус.

Теперь проверьте, были ли измененные строки, хранящиеся в таблицах PRODUCT_CCD и INVENTORY_CCD, извлечены DataStage и вставлены в два файла набора данных.

Шаг 7) Вернитесь в конструктор и откройте задание STAGEDB_ASN_PRODUCT_CCD_extract. Чтобы открыть редактор сцены, дважды щелкните значок insert_into_a_dataset. Затем нажмите просмотреть данные.

Шаг 8) Примите значения по умолчанию в строках для отображения окна. Затем нажмите ОК. Откроется окно браузера данных для отображения содержимого файла набора данных.

Тестирование интеграции между SQL Replication и DataStage

На предыдущем этапе мы скомпилировали и выполнили задание. В этом разделе мы проверим интеграцию репликации SQL и DataStage. Для этого мы внесем изменения в исходную таблицу и посмотрим, обновится ли то же самое изменение в DataStage.

Шаг 1) Перейдите в папку sqlrepl-datastage-scripts для вашей операционной системы.

Шаг 2) Запустите репликацию SQL, выполнив следующие действия:

Запустите файл startSQLCapture.bat (Windows), чтобы запустить программу Capture в базе данных SALES.
Запустите файл startSQLApply.bat (Windows), чтобы запустить программу Apply в базе данных STAGEDB.

Шаг 3) Теперь откройте файл updateSourceTables.sql. Для подключения к базе данных SALES замените <sales-connect-ID> и <sales-password> на идентификатор пользователя и пароль.

Шаг 4) Откройте командное окно DB2. Измените каталог на sqlrepl-datastage-tutorial \ scripts и запустите проблему с помощью данной команды:

db2 -tvf updateSourceTables.sql

Сценарий SQL выполняет различные операции, такие как обновление, вставка и удаление обеих таблиц (PRODUCT, INVENTORY) в базе данных Sales.

Шаг 5) В системе, где работает DataStage. Откройте DataStage Director и выполните задание STAGEDB_AQ00_S00_sequence. Нажмите Job> Run Now.

Когда вы запустите задание, будут выполнены следующие действия.

Программа Capture считывает шестистрочные изменения в журнале базы данных SALES и вставляет их в таблицы CD.
Программа Apply извлекает строки изменений из таблиц CD в SALES и вставляет их в таблицы CCD в STAGEDB.
Два задания извлечения DataStage собирают изменения из таблиц CCD и записывают их в файлы productdataset.ds и инвентаризации dataset.ds.

Вы можете проверить, что вышеупомянутые шаги имели место, посмотрев на наборы данных.

Шаг 6) Выполните следующие шаги,

Запустите конструктор. Откройте задание STAGEDB_ASN_PRODUCT_CCD_extract.
Затем дважды щелкните значок insert_into_a_dataset. В сценическом редакторе. Нажмите Просмотр данных.
Примите значения по умолчанию в строках, которые будут отображаться в окне и нажмите ОК.

Набор данных содержит три новых строки. Самый простой способ проверить внесенные изменения — это прокрутить вниз в крайнем правом углу браузера данных. Теперь посмотрите на последние три строки (см. Изображение ниже)

Буквы I, U и D указывают операции INSERT, UPDATE и DELETE, которые привели к каждой новой строке.

Вы можете сделать ту же проверку для таблицы инвентаризации.

Резюме :

Datastage — это инструмент ETL, который извлекает данные, преобразует и загружает данные из источника в цель.
Это облегчает бизнес-анализ, предоставляя качественные данные, которые помогают в получении бизнес-аналитики.
DataStage разделен на два раздела: общие компоненты и архитектура времени выполнения .
DataStage состоит из четырех основных компонентов:
- администратор
- Управляющий делами
- дизайнер
- директор
Ниже приведены ключевые аспекты IBM InfoSphere DataStage.
- Преобразование данных
- работы
- Параллельная обработка
В проектировании работы участвуют различные этапы:
- Стадия трансформации
- Ступень фильтра
- Этап агрегатора
- Этап удаления дубликатов
- Присоединиться к стадии
- Стадия поиска