В этой главе мы узнаем, как работать с заданием «Свинья» в Talend.
Создание Задания Talend Pig
В этом разделе мы узнаем, как запустить задание Pig в Talend. Здесь мы обработаем данные NYSE, чтобы узнать средний объем запасов IBM.
Для этого щелкните правой кнопкой мыши Job Design и создайте новую работу — pigjob. Упомяните детали работы и нажмите Готово.
Добавление компонентов в свиноводство
Чтобы добавить компоненты в задание Pig, перетащите четыре компонента Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, из окна поддона в конструктор.
Затем щелкните правой кнопкой мыши tPigLoad и создайте линию Pig Combine для tPigFilterRow. Затем щелкните правой кнопкой мыши tPigFilterRow и создайте линию Pig Combine для tPigAggregate. Щелкните правой кнопкой мыши tPigAggregate и создайте линию объединения Pig в tPigStoreResult.
Конфигурирование компонентов и преобразований
В tPigLoad упомяните дистрибутив как cloudera и версию cloudera. Обратите внимание, что Namenode URI должен быть «hdfs: //quickstart.cloudera: 8020», а менеджер ресурсов должен быть «quickstart.cloudera: 8020». Кроме того, имя пользователя должно быть «cloudera».
В URI входного файла укажите путь вашего входного файла NYSE к заданию PIG. Обратите внимание, что этот входной файл должен присутствовать в HDFS.
Нажмите изменить схему, добавьте столбцы и их тип, как показано ниже.
В tPigFilterRow выберите опцию «Использовать расширенный фильтр» и поместите «stock_symbol = = ‘IBM’» в опцию Фильтр.
В tAggregateRow щелкните по редактировать схему и добавьте столбец avg_stock_volume в вывод, как показано ниже.
Теперь поместите столбец stock_exchange в группу по варианту. Добавьте столбец avg_stock_volume в поле «Операции» с параметром count и stock_exchange в качестве входного столбца.
В tPigStoreResult укажите выходной путь в URI папки результатов, где вы хотите сохранить результат задания Pig. Выберите функцию хранилища как PigStorage и разделитель полей (не обязательно) как «\ t».
Выполнение Задания Свиньи
Теперь нажмите Run, чтобы выполнить задание Pig. (Игнорировать предупреждения)
Как только работа закончится, перейдите и проверьте свои выходные данные по пути HDFS, который вы упомянули для сохранения результата работы со свиньей. Средний объем запасов IBM составляет 500.