Учебники

Таленд — Улей

В этой главе мы расскажем, как работать с Hive job в Talend.

Создание задания Talend Hive

Например, мы загрузим данные NYSE в таблицу кустов и выполним базовый запрос улья. Щелкните правой кнопкой мыши на Job Design и создайте новую работу — hivejob. Упомяните детали работы и нажмите Готово.

Улей Работа

Добавление компонентов в Hive Job

Чтобы привязать компоненты к заданию Hive, перетащите пять компонентов talend — tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput и tLogRow из окна поддона в конструктор. Затем щелкните правой кнопкой мыши tHiveConnection и создайте триггер OnSubjobOk для tHiveCreateTable. Теперь щелкните правой кнопкой мыши tHiveCreateTable и создайте триггер OnSubjobOk для tHiveLoad. Щелкните правой кнопкой мыши tHiveLoad и создайте итерационный триггер на tHiveInput. Наконец, щелкните правой кнопкой мыши tHiveInput и создайте основную строку для tLogRow.

Добавление компонентов

Конфигурирование компонентов и преобразований

В tHiveConnection выберите дистрибутив в качестве cloudera и его версию, которую вы используете. Обратите внимание, что режим подключения будет автономным, а служба Hive будет Hive 2. Также проверьте, установлены ли следующие параметры соответственно:

  • Ведущий: «quickstart.cloudera»
  • Порт: «10000»
  • База данных: «по умолчанию»
  • Имя пользователя: «улей»

Обратите внимание, что пароль будет заполнен автоматически, вам не нужно его редактировать. Также другие свойства Hadoop будут предустановлены и установлены по умолчанию.

Конфигурирование компонентов

В tHiveCreateTable выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Дайте Имя таблицы, которую вы хотите создать в базе данных по умолчанию. Сохраните остальные параметры, как показано ниже.

Улей Создать таблицу

В tHiveLoad выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Выберите LOAD в действии Load. В поле «Путь к файлу» укажите путь HDFS вашего входного файла NYSE. Укажите в таблице имя таблицы, в которую вы хотите загрузить данные. Сохраните остальные параметры, как показано ниже.

Существующее соединение

В tHiveInput выберите Использовать существующее соединение и поместите tHiveConnection в список компонентов. Нажмите «Изменить схему», добавьте столбцы и их тип, как показано на снимке схемы ниже. Теперь дайте имя таблицы, которую вы создали в tHiveCreateTable.

Поместите ваш запрос в опцию запроса, которую вы хотите запустить в таблице Hive. Здесь мы печатаем все столбцы первых 10 строк в таблице тестового куста.

Соединение ульяSchema_of_tHiveInput

В tLogRow щелкните синхронизировать столбцы и выберите режим таблицы для отображения выходных данных.

Настольный режим

Выполнение задания улья

Нажмите Run, чтобы начать выполнение. Если все соединение и параметры были установлены правильно, вы увидите вывод вашего запроса, как показано ниже.