В этой главе мы расскажем, как работать с Hive job в Talend.
Создание задания Talend Hive
Например, мы загрузим данные NYSE в таблицу кустов и выполним базовый запрос улья. Щелкните правой кнопкой мыши на Job Design и создайте новую работу — hivejob. Упомяните детали работы и нажмите Готово.
Добавление компонентов в Hive Job
Чтобы привязать компоненты к заданию Hive, перетащите пять компонентов talend — tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput и tLogRow из окна поддона в конструктор. Затем щелкните правой кнопкой мыши tHiveConnection и создайте триггер OnSubjobOk для tHiveCreateTable. Теперь щелкните правой кнопкой мыши tHiveCreateTable и создайте триггер OnSubjobOk для tHiveLoad. Щелкните правой кнопкой мыши tHiveLoad и создайте итерационный триггер на tHiveInput. Наконец, щелкните правой кнопкой мыши tHiveInput и создайте основную строку для tLogRow.
Конфигурирование компонентов и преобразований
В tHiveConnection выберите дистрибутив в качестве cloudera и его версию, которую вы используете. Обратите внимание, что режим подключения будет автономным, а служба Hive будет Hive 2. Также проверьте, установлены ли следующие параметры соответственно:
- Ведущий: «quickstart.cloudera»
- Порт: «10000»
- База данных: «по умолчанию»
- Имя пользователя: «улей»
Обратите внимание, что пароль будет заполнен автоматически, вам не нужно его редактировать. Также другие свойства Hadoop будут предустановлены и установлены по умолчанию.
В tHiveCreateTable выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Дайте Имя таблицы, которую вы хотите создать в базе данных по умолчанию. Сохраните остальные параметры, как показано ниже.
В tHiveLoad выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Выберите LOAD в действии Load. В поле «Путь к файлу» укажите путь HDFS вашего входного файла NYSE. Укажите в таблице имя таблицы, в которую вы хотите загрузить данные. Сохраните остальные параметры, как показано ниже.
В tHiveInput выберите Использовать существующее соединение и поместите tHiveConnection в список компонентов. Нажмите «Изменить схему», добавьте столбцы и их тип, как показано на снимке схемы ниже. Теперь дайте имя таблицы, которую вы создали в tHiveCreateTable.
Поместите ваш запрос в опцию запроса, которую вы хотите запустить в таблице Hive. Здесь мы печатаем все столбцы первых 10 строк в таблице тестового куста.
В tLogRow щелкните синхронизировать столбцы и выберите режим таблицы для отображения выходных данных.
Выполнение задания улья
Нажмите Run, чтобы начать выполнение. Если все соединение и параметры были установлены правильно, вы увидите вывод вашего запроса, как показано ниже.