Учебники

Таленд — работа со свиньей

В этой главе мы узнаем, как работать с заданием «Свинья» в Talend.

Создание Задания Talend Pig

В этом разделе мы узнаем, как запустить задание Pig в Talend. Здесь мы обработаем данные NYSE, чтобы узнать средний объем запасов IBM.

Для этого щелкните правой кнопкой мыши Job Design и создайте новую работу — pigjob. Упомяните детали работы и нажмите Готово.

Talend Pig Job

Добавление компонентов в свиноводство

Чтобы добавить компоненты в задание Pig, перетащите четыре компонента Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, из окна поддона в конструктор.

Затем щелкните правой кнопкой мыши tPigLoad и создайте линию Pig Combine для tPigFilterRow. Затем щелкните правой кнопкой мыши tPigFilterRow и создайте линию Pig Combine для tPigAggregate. Щелкните правой кнопкой мыши tPigAggregate и создайте линию объединения Pig в tPigStoreResult.

Добавление свиньи

Конфигурирование компонентов и преобразований

В tPigLoad упомяните дистрибутив как cloudera и версию cloudera. Обратите внимание, что Namenode URI должен быть «hdfs: //quickstart.cloudera: 8020», а менеджер ресурсов должен быть «quickstart.cloudera: 8020». Кроме того, имя пользователя должно быть «cloudera».

В URI входного файла укажите путь вашего входного файла NYSE к заданию PIG. Обратите внимание, что этот входной файл должен присутствовать в HDFS.

NYSE Input

Нажмите изменить схему, добавьте столбцы и их тип, как показано ниже.

Редактировать схему

В tPigFilterRow выберите опцию «Использовать расширенный фильтр» и поместите «stock_symbol = = ‘IBM’» в опцию Фильтр.

Опция фильтра

В tAggregateRow щелкните по редактировать схему и добавьте столбец avg_stock_volume в вывод, как показано ниже.

Средний объем акций

Теперь поместите столбец stock_exchange в группу по варианту. Добавьте столбец avg_stock_volume в поле «Операции» с параметром count и stock_exchange в качестве входного столбца.

Фондовая биржа

В tPigStoreResult укажите выходной путь в URI папки результатов, где вы хотите сохранить результат задания Pig. Выберите функцию хранилища как PigStorage и разделитель полей (не обязательно) как «\ t».

Свинья Хранение

Выполнение Задания Свиньи

Теперь нажмите Run, чтобы выполнить задание Pig. (Игнорировать предупреждения)

Выполнение Свиноводства

Как только работа закончится, перейдите и проверьте свои выходные данные по пути HDFS, который вы упомянули для сохранения результата работы со свиньей. Средний объем запасов IBM составляет 500.