Учебники

Таленд — Краткое руководство

Таленд — Введение

Talend является платформой интеграции программного обеспечения, которая предоставляет решения для интеграции данных, качества данных, управления данными, подготовки данных и больших данных. Спрос на профессионалов ETL со знаниями по Talend высок. Кроме того, это единственный инструмент ETL со всеми плагинами, который легко интегрируется с экосистемой больших данных.

Согласно Gartner, Talend попадает в магический квадрант лидеров для инструментов интеграции данных.

Talend предлагает различные коммерческие продукты, как указано ниже —

  • Качество данных Talend
  • Интеграция данных Talend
  • Подготовка данных Talend
  • Облако Таленд
  • Таленд Большие Данные
  • Платформа Talend MDM (Управление основными данными)
  • Платформа сервисов данных Talend
  • Менеджер метаданных Talend
  • Talend Data Fabric

Talend также предлагает Open Studio, бесплатный инструмент с открытым исходным кодом, широко используемый для интеграции данных и больших данных.

Таленд — Системные требования

Ниже приведены системные требования для загрузки и работы в Talend Open Studio.

Рекомендуемая операционная система

  • Microsoft Windows 10
  • Ubuntu 16.04 LTS
  • Apple macOS 10.13 / High Sierra

Требование к памяти

  • Память — минимум 4 ГБ, рекомендуется 8 ГБ
  • Место для хранения — 30 ГБ

Кроме того, вам также нужен работающий кластер Hadoop (желательно Cloudera.

Примечание. Java 8 должна быть доступна с уже установленными переменными среды.

Таленд — Установка

Чтобы загрузить Talend Open Studio для больших данных и интеграции данных, выполните следующие действия:

Шаг 1 — Перейдите на страницу: https://www.talend.com/products/big-data/big-data-open-studio/ и нажмите кнопку загрузки. Вы видите, что файл TOS_BD_xxxxxxx.zip начинает загружаться.

Шаг 2 — После завершения загрузки извлеките содержимое zip-файла, он создаст папку со всеми файлами Talend в нем.

Шаг 3 — Откройте папку Talend и дважды щелкните исполняемый файл: TOS_BD-win-x86_64.exe. Примите Пользовательское лицензионное соглашение.

Пользовательская лицензия

Шаг 4 — Создайте новый проект и нажмите Готово.

Нажмите Готово

Шаг 5 — Нажмите Разрешить доступ, если вы получили предупреждение безопасности Windows.

Предупреждение безопасности Windows

Шаг 6 — Теперь откроется страница приветствия Talend Open Studio.

Страница приветствия

Шаг 7 — Нажмите Готово, чтобы установить необходимые сторонние библиотеки.

Сторонние библиотеки

Шаг 8 — Примите условия и нажмите Готово.

Принять условия

Шаг 9 — Нажмите Да.

подтверждение

Теперь ваша Talend Open Studio готова с необходимыми библиотеками.

Talend Open Studio

Talend Open Studio — это бесплатный инструмент ETL с открытым исходным кодом для интеграции данных и больших данных. Это инструмент для разработчиков на основе Eclipse и дизайнер заданий. Вам просто нужно перетащить компоненты и соединить их для создания и запуска заданий ETL или ETL. Инструмент автоматически создаст Java-код для задания, и вам не нужно писать ни одной строки кода.

Существует несколько вариантов подключения к источникам данных, таким как RDBMS, Excel, экосистема больших данных SaaS, а также приложения и технологии, такие как SAP, CRM, Dropbox и многие другие.

Ниже перечислены некоторые важные преимущества, которые предлагает Talend Open Studio.

  • Предоставляет все функции, необходимые для интеграции данных и синхронизации с 900 компонентами, встроенными соединителями, автоматического преобразования заданий в код Java и многое другое.

  • Инструмент абсолютно бесплатный, следовательно, есть большая экономия средств.

  • За последние 12 лет несколько гигантских организаций приняли TOS для интеграции данных, что показывает очень высокий фактор доверия к этому инструменту.

  • Сообщество Talend для интеграции данных очень активно.

  • Talend продолжает добавлять функции к этим инструментам, а документация хорошо структурирована и очень проста в использовании.

Предоставляет все функции, необходимые для интеграции данных и синхронизации с 900 компонентами, встроенными соединителями, автоматического преобразования заданий в код Java и многое другое.

Инструмент абсолютно бесплатный, следовательно, есть большая экономия средств.

За последние 12 лет несколько гигантских организаций приняли TOS для интеграции данных, что показывает очень высокий фактор доверия к этому инструменту.

Сообщество Talend для интеграции данных очень активно.

Talend продолжает добавлять функции к этим инструментам, а документация хорошо структурирована и очень проста в использовании.

Talend — интеграция данных

Большинство организаций получают данные из разных мест и хранят их отдельно. Теперь, если организация должна принимать решения, она должна взять данные из разных источников, представить их в едином представлении и затем проанализировать их, чтобы получить результат. Этот процесс называется интеграцией данных.

Выгоды

Интеграция данных предлагает много преимуществ, как описано ниже —

  • Улучшает взаимодействие между различными командами в организации, пытающимися получить доступ к данным организации.

  • Экономит время и облегчает анализ данных, поскольку данные эффективно интегрируются.

  • Процесс автоматической интеграции данных синхронизирует данные и облегчает в режиме реального времени и периодическую отчетность, которая в противном случае занимает много времени, если делается вручную.

  • Данные, интегрированные из нескольких источников, со временем становятся зрелыми и улучшаются, что в конечном итоге способствует повышению качества данных.

Улучшает взаимодействие между различными командами в организации, пытающимися получить доступ к данным организации.

Экономит время и облегчает анализ данных, поскольку данные эффективно интегрируются.

Процесс автоматической интеграции данных синхронизирует данные и облегчает в режиме реального времени и периодическую отчетность, которая в противном случае занимает много времени, если делается вручную.

Данные, интегрированные из нескольких источников, со временем становятся зрелыми и улучшаются, что в конечном итоге способствует повышению качества данных.

Работа с проектами

В этом разделе давайте разберемся, как работать над проектами Talend —

Создание проекта

Дважды щелкните исполняемый файл TOS Big Data, откроется окно, показанное ниже.

Выберите «Создать новый проект», укажите название проекта и нажмите «Создать».

Создание проекта

Выберите проект, который вы создали, и нажмите Готово.

Выберите проект

Импорт проекта

Дважды щелкните исполняемый файл TOS Big Data, вы увидите окно, показанное ниже. Выберите параметр «Импортировать демонстрационный проект» и нажмите «Выбрать».

Импорт проекта

Вы можете выбрать один из вариантов, показанных ниже. Здесь мы выбираем демонстрации интеграции данных. Теперь нажмите Готово.

Интеграция данных

Теперь дайте название проекта и описание. Нажмите Готово.

название проекта

Вы можете увидеть ваш импортированный проект в списке существующих проектов.

Импортированный проект

Теперь давайте разберемся, как импортировать существующий проект Talend.

Выберите «Импорт существующего проекта» и нажмите «Выбрать».

Существующий вариант проекта

Дайте Имя проекта и выберите опцию «Выбрать корневой каталог».

Выберите корневой каталог

Просмотрите существующий домашний каталог проекта Talend и нажмите «Готово».

Обзор проекта

Ваш существующий проект Talend будет импортирован.

Открытие проекта

Выберите проект из существующего проекта и нажмите «Готово». Это откроет тот проект Talend.

Открытие проекта

Удаление проекта

Чтобы удалить проект, нажмите «Управление подключениями».

Удаление проекта

Нажмите Удалить существующие проекты

Удаление существующего проекта

Выберите проект, который вы хотите удалить, и нажмите Ok.

Удаление проекта

Нажмите ОК еще раз.

Экспорт проекта

Нажмите «Экспортировать проект».

Экспортный проект

Выберите проект, который вы хотите экспортировать, и укажите путь, куда он должен быть экспортирован. Нажмите на Готово.

Архивный файл

Таленд — Основы модели

Бизнес-модель — это графическое представление проекта интеграции данных. Это нетехническое представление рабочего процесса бизнеса.

Зачем вам нужна бизнес-модель?

Бизнес-модель построена так, чтобы показать высшему руководству, что вы делаете, и она также помогает вашей команде понять, чего вы пытаетесь достичь. Проектирование бизнес-модели считается одной из лучших практик, которые организации применяют в начале своего проекта интеграции данных. Кроме того, помогая сократить расходы, он находит и устраняет узкие места в вашем проекте. При необходимости модель может быть изменена во время и после реализации проекта.

Создание бизнес-модели в Talend Open Studio

Talend open studio предоставляет несколько форм и соединителей для создания и дизайна бизнес-модели. Каждый модуль в бизнес-модели может иметь прикрепленную документацию.

Talend Open Studio предлагает следующие формы и параметры коннектора для создания бизнес-модели:

  • Решение — эта форма используется для помещения условия в модель.

  • Действие — эта форма используется для отображения любого преобразования, перевода или форматирования.

  • Терминал — эта форма показывает тип выходного терминала.

  • Данные — эта форма используется для отображения типа данных.

  • Документ — эта форма используется для вставки объекта документа, который можно использовать для ввода / вывода обработанных данных.

  • Ввод — эта форма используется для вставки объекта ввода, с помощью которого пользователь может передавать данные вручную.

  • Список — эта фигура содержит извлеченные данные, и ее можно определить для хранения только определенных типов данных в списке.

  • База данных — эта форма используется для хранения данных ввода / вывода.

  • Актер — эта форма символизирует людей, вовлеченных в принятие решений и технические процессы

  • Эллипс — вставляет форму эллипса.

    Gear — эта фигура показывает ручные программы, которые должны быть заменены заданиями Talend.

Решение — эта форма используется для помещения условия в модель.

Действие — эта форма используется для отображения любого преобразования, перевода или форматирования.

Терминал — эта форма показывает тип выходного терминала.

Данные — эта форма используется для отображения типа данных.

Документ — эта форма используется для вставки объекта документа, который можно использовать для ввода / вывода обработанных данных.

Ввод — эта форма используется для вставки объекта ввода, с помощью которого пользователь может передавать данные вручную.

Список — эта фигура содержит извлеченные данные, и ее можно определить для хранения только определенных типов данных в списке.

База данных — эта форма используется для хранения данных ввода / вывода.

Актер — эта форма символизирует людей, вовлеченных в принятие решений и технические процессы

Эллипс — вставляет форму эллипса.

Gear — эта фигура показывает ручные программы, которые должны быть заменены заданиями Talend.

Talend — Компоненты для интеграции данных

Все операции в Talend выполняются соединителями и компонентами. Talend предлагает более 800 разъемов и компонентов для выполнения нескольких операций. Эти компоненты присутствуют в палитре, и есть 21 основных категорий, к которым относятся компоненты. Вы можете выбрать коннекторы и просто перетащить их в панель дизайнера, это автоматически создаст Java-код, который будет скомпилирован при сохранении кода Talend.

Основные категории, которые содержат компоненты, показаны ниже —

Основные категории

Ниже приведен список широко используемых разъемов и компонентов для интеграции данных в Talend Open Studio.

  • tMysqlConnectionподключается к базе данных MySQL, определенной в компоненте.

  • tMysqlInput — запускает запрос к базе данных, чтобы прочитать базу данных и извлечь поля (таблицы, представления и т. д.) в зависимости от запроса.

  • tMysqlOutput — используется для записи, обновления, изменения данных в базе данных MySQL.

  • tFileInputDelimited — Считывает файл за строкой с разделителями, разделяет их на отдельные поля и передает их следующему компоненту.

  • tFileInputExcel — Считывает файл Excel по строкам, разделяет их на отдельные поля и передает их следующему компоненту.

  • tFileList — получает все файлы и каталоги из заданного шаблона маски файла.

  • tFileArchiveсжимает набор файлов или папок в архивный файл zip, gzip или tar.gz.

  • tRowGenerator — предоставляет редактор, в котором вы можете писать функции или выбирать выражения для генерации ваших образцов данных.

  • tMsgBox — возвращает диалоговое окно с указанным сообщением и кнопкой ОК.

  • tLogRowотслеживает обработку данных. Он отображает данные / вывод в консоли запуска.

  • tPreJob — Определяет вспомогательные задания, которые будут запущены до того, как начнется ваше фактическое задание.

  • tMap — действует как плагин в студии Talend. Он берет данные из одного или нескольких источников, преобразует их, а затем отправляет преобразованные данные одному или нескольким получателям.

  • tJoin — объединяет 2 таблицы, выполняя внутренние и внешние соединения между основным потоком и потоком поиска.

  • tJava — позволяет использовать персонализированный код Java в программе Talend.

  • tRunJob — Управляет сложными системами заданий, выполняя одно задание Talend за другим.

tMysqlConnectionподключается к базе данных MySQL, определенной в компоненте.

tMysqlInput — запускает запрос к базе данных, чтобы прочитать базу данных и извлечь поля (таблицы, представления и т. д.) в зависимости от запроса.

tMysqlOutput — используется для записи, обновления, изменения данных в базе данных MySQL.

tFileInputDelimited — Считывает файл за строкой с разделителями, разделяет их на отдельные поля и передает их следующему компоненту.

tFileInputExcel — Считывает файл Excel по строкам, разделяет их на отдельные поля и передает их следующему компоненту.

tFileList — получает все файлы и каталоги из заданного шаблона маски файла.

tFileArchiveсжимает набор файлов или папок в архивный файл zip, gzip или tar.gz.

tRowGenerator — предоставляет редактор, в котором вы можете писать функции или выбирать выражения для генерации ваших образцов данных.

tMsgBox — возвращает диалоговое окно с указанным сообщением и кнопкой ОК.

tLogRowотслеживает обработку данных. Он отображает данные / вывод в консоли запуска.

tPreJob — Определяет вспомогательные задания, которые будут запущены до того, как начнется ваше фактическое задание.

tMap — действует как плагин в студии Talend. Он берет данные из одного или нескольких источников, преобразует их, а затем отправляет преобразованные данные одному или нескольким получателям.

tJoin — объединяет 2 таблицы, выполняя внутренние и внешние соединения между основным потоком и потоком поиска.

tJava — позволяет использовать персонализированный код Java в программе Talend.

tRunJob — Управляет сложными системами заданий, выполняя одно задание Talend за другим.

Таленд — Работа Дизайн

Это техническая реализация / графическое представление бизнес-модели. В этом проекте один или несколько компонентов связаны друг с другом для запуска процесса интеграции данных. Таким образом, когда вы перетаскиваете компоненты на панели проектирования и затем соединяетесь с помощью соединителей, проект задания преобразует все в код и создает полную работоспособную программу, которая формирует поток данных.

Создание работы

В окне репозитория щелкните правой кнопкой мыши проект задания и выберите «Создать задание».

Создание работы

Укажите название, цель и описание задания и нажмите «Готово».

Описание работы

Вы можете видеть, что ваша работа была создана в Job Design.

Работа Дизайн

Теперь давайте воспользуемся этим заданием для добавления компонентов, их подключения и настройки. Здесь мы возьмем файл Excel в качестве входных данных и создадим файл Excel в качестве выходных данных с теми же данными.

Добавление компонентов в работу

В палитре есть несколько компонентов на выбор. Существует также опция поиска, в которой вы можете ввести имя компонента, чтобы выбрать его.

палитра

Так как здесь мы берем файл Excel в качестве входных данных, мы перетащим компонент tFileInputExcel из палитры в окно Designer.

Дизайнерское окно

Теперь, если вы щелкнете где-нибудь в окне дизайнера, появится окно поиска. Найдите tLogRow и выберите его, чтобы отобразить в окне дизайнера.

Поисковая строка

Наконец, выберите компонент tFileOutputExcel из палитры и перетащите его в окно дизайнера.

Файл вывода Excel

Теперь добавление компонентов завершено.

Новая работа

Подключение компонентов

После добавления компонентов их необходимо подключить. Щелкните правой кнопкой мыши первый компонент tFileInputExcel и нарисуйте главную линию для tLogRow, как показано ниже.

Подключение компонентов

Аналогично, щелкните правой кнопкой мыши tLogRow и нарисуйте главную линию на tFileOutputExcel. Теперь ваши компоненты подключены.

Соединенные компонентыНарисовать главную линию

Конфигурирование компонентов

После добавления и подключения компонентов в задании их необходимо настроить. Для этого дважды щелкните первый компонент tFileInputExcel, чтобы настроить его. Укажите путь к вашему входному файлу в поле «Имя файла / поток», как показано ниже.

Если ваша первая строка в Excel имеет имена столбцов, поставьте 1 в опции Header.

Вариант заголовка

Нажмите Изменить схему и добавьте столбцы и их тип в соответствии с вашим входным файлом Excel. Нажмите Ok после добавления схемы.

Добавление схемы

Нажмите Да.

размножать

В компоненте tLogRow щелкните по столбцам синхронизации и выберите режим, в котором вы хотите сгенерировать строки из вашего ввода. Здесь мы выбрали основной режим с «,» в качестве разделителя полей.

Информация о прогрессе

Наконец, в компоненте tFileOutputExcel укажите путь к имени файла, в котором вы хотите хранить

Синхронизировать столбцы

ваш выходной файл Excel с именем листа. Нажмите на синхронизировать столбцы .

Выполнение работы

Как только вы закончите с добавлением, подключением и настройкой ваших компонентов, вы будете готовы выполнить задание Talend. Нажмите кнопку «Выполнить», чтобы начать выполнение.

Базовый прогонLog Row

Вы увидите вывод в основном режиме с разделителем «,».

Основной режим

Вы также можете видеть, что ваши выходные данные сохраняются в формате Excel на указанном вами пути вывода.

Выходной путь

Таленд — Метаданные

Метаданные в основном означают данные о данных. Он рассказывает о том, что, когда, почему, кто, где, что и как данных. В Talend метаданные содержат всю информацию о данных, которые присутствуют в Talend studio. Параметр метаданных присутствует на панели репозитория Talend Open Studio.

Различные источники, такие как соединения с БД, различные типы файлов, LDAP, Azure, Salesforce, FTP веб-служб, кластер Hadoop и многие другие параметры представлены в разделе Метаданные Talend.

Основное использование метаданных в Talend Open Studio заключается в том, что эти источники данных можно использовать в нескольких заданиях простым перетаскиванием из метаданных на панели репозитория.

Метаданные

Talend — контекстные переменные

Контекстные переменные — это переменные, которые могут иметь разные значения в разных средах. Вы можете создать контекстную группу, которая может содержать несколько переменных контекста. Вам не нужно добавлять каждую переменную контекста одну за другой в работу, вы можете просто добавить группу контекста в работу.

Эти переменные используются для подготовки кода. Его средства с помощью переменных контекста позволяют перемещать код в средах разработки, тестирования или производства, он будет работать во всех средах.

В любой работе вы можете перейти на вкладку Контексты, как показано ниже, и добавить переменные контекста.

Переменные контекста

Talend — Управление работой

В этой главе давайте рассмотрим управление заданиями и соответствующими функциями, включенными в Talend.

Активация / деактивация компонента

Активировать / деактивировать компонент очень просто. Вам просто нужно выбрать компонент, щелкнуть по нему правой кнопкой мыши и выбрать деактивировать или активировать этот компонент.

Деактивация компонента

Импорт / экспорт предметов и строительных работ

Чтобы экспортировать элемент из задания, щелкните правой кнопкой мыши на задании в дизайне заданий и выберите «Экспорт элементов».

Импорт предметовЭкспорт товаров

Введите путь, по которому вы хотите экспортировать элемент, и нажмите «Готово».

Введите путь

Чтобы импортировать элемент из задания, щелкните правой кнопкой мыши на задании в дизайне заданий и выберите «Импорт элементов».

Импорт элементов правой кнопкой мыши

Найдите корневой каталог, из которого вы хотите импортировать элементы.

Установите все флажки и нажмите «Готово».

Флажки

Talend — обработка выполнения работы

В этой главе давайте разберемся с обработкой выполнения задания в Talend.

Чтобы построить задание, щелкните правой кнопкой мыши задание и выберите параметр «Создать задание».

Построить работу

Укажите путь, по которому вы хотите заархивировать работу, выберите версию работы и тип сборки, затем нажмите «Готово».

Версия вакансии

Как запустить работу в обычном режиме

Чтобы запустить задание на обычном узле, вам нужно выбрать «Базовый запуск» и нажать кнопку «Выполнить», чтобы начать выполнение.

Нормальный режим

Как запустить задание в режиме отладки

Чтобы запустить задание в режиме отладки, добавьте точку останова к компонентам, которые вы хотите отладить.

Затем выберите и щелкните правой кнопкой мыши компонент, выберите опцию Добавить точку останова. Обратите внимание, что здесь мы добавили точки останова для компонентов tFileInputExcel и tLogRow. Затем перейдите в Debug Run и нажмите кнопку Java Debug.

Режим отладки

На следующем снимке экрана видно, что задание теперь будет выполняться в режиме отладки и в соответствии с точками останова, которые мы упомянули.

Выполнить режим отладки

Расширенные настройки

В разделе «Дополнительные настройки» вы можете выбрать «Статистика», «Время выполнения», «Сохранить работу перед выполнением», «Очистить перед выполнением» и «Настройки JVM». Каждый из этих вариантов имеет функциональность, как описано здесь —

  • Статистика — отображает показатель производительности обработки;

  • Exec Time — время, затраченное на выполнение задания.

  • Сохранить задание перед выполнением — автоматически сохраняет задание до начала выполнения.

  • Работа перед выполнением

  • Очистить перед запуском — Удаляет все из консоли вывода.

  • Настройки JVM — Помогает нам настроить собственные аргументы Java.

Статистика — отображает показатель производительности обработки;

Exec Time — время, затраченное на выполнение задания.

Сохранить задание перед выполнением — автоматически сохраняет задание до начала выполнения.

Очистить перед запуском — Удаляет все из консоли вывода.

Настройки JVM — Помогает нам настроить собственные аргументы Java.

Таленд — Большие данные

Строка тега для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных». В этой главе мы рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных. ,

Вступление

Talend Open Studio — Big Data — это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio имеется множество компонентов с большими данными, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.

Кроме того, нам не нужно писать большие строки кодов MapReduce; Talend Open Studio Большие данные помогут вам сделать это с помощью компонентов, присутствующих в нем. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.

Это также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.

Компоненты Talend для больших данных

Список категорий с компонентами для выполнения задания в среде больших данных, включенных в Big Data, показан ниже —

Большие данные

Список соединителей и компонентов Big Data в Talend Open Studio показан ниже —

  • tHDFSConnection — используется для подключения к HDFS (распределенная файловая система Hadoop).

  • tHDFSInput — читает данные по заданному пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.

  • tHDFSListизвлекает все файлы и папки по указанному пути hdfs.

  • tHDFSPutкопирует файл / папку из локальной файловой системы (определяемой пользователем) в hdf по указанному пути.

  • tHDFSGet — Копирует файл / папку из hdfs в локальную файловую систему (определяется пользователем) по заданному пути.

  • tHDFSDelete — удаляет файл из HDFS

  • tHDFSExist — Проверяет, присутствует ли файл в HDFS или нет.

  • tHDFSOutput — записывает потоки данных в HDFS.

  • tCassandraConnection — открывает соединение с сервером Cassandra.

  • tCassandraRow — Запускает CQL (язык запросов Cassandra) в указанной базе данных.

  • tHBaseConnection — открывает соединение с базой данных HBase.

  • tHBaseInput — читает данные из базы данных HBase.

  • tHiveConnection — открывает соединение с базой данных Hive.

  • tHiveCreateTable — создает таблицу в базе данных кустов .

  • tHiveInput — читает данные из базы данных улья.

  • tHiveLoad — записывает данные в таблицу кустов или в указанный каталог.

  • tHiveRow — выполняет запросы HiveQL к указанной базе данных.

  • tPigLoad — загружает входные данные в выходной поток.

  • tPigMap — используется для преобразования и маршрутизации данных в процессе PIG .

  • tPigJoin — выполняет операцию объединения двух файлов на основе ключей соединения.

  • tPigCoGroupгруппирует и объединяет данные, поступающие с нескольких входов.

  • tPigSortсортирует данные на основе одного или нескольких определенных ключей сортировки.

  • tPigStoreResult — Сохраняет результат операции PIG в определенной области памяти.

  • tPigFilterRowфильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.

  • tPigDistinct — удаляет дубликаты кортежей из отношения.

  • tSqoopImport — переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.

  • tSqoopExport — переносит данные из HDFS в реляционную базу данных, такую ​​как MySQL, Oracle DB

tHDFSConnection — используется для подключения к HDFS (распределенная файловая система Hadoop).

tHDFSInput — читает данные по заданному пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.

tHDFSListизвлекает все файлы и папки по указанному пути hdfs.

tHDFSPutкопирует файл / папку из локальной файловой системы (определяемой пользователем) в hdf по указанному пути.

tHDFSGet — Копирует файл / папку из hdfs в локальную файловую систему (определяется пользователем) по заданному пути.

tHDFSDelete — удаляет файл из HDFS

tHDFSExist — Проверяет, присутствует ли файл в HDFS или нет.

tHDFSOutput — записывает потоки данных в HDFS.

tCassandraConnection — открывает соединение с сервером Cassandra.

tCassandraRow — Запускает CQL (язык запросов Cassandra) в указанной базе данных.

tHBaseConnection — открывает соединение с базой данных HBase.

tHBaseInput — читает данные из базы данных HBase.

tHiveConnection — открывает соединение с базой данных Hive.

tHiveCreateTable — создает таблицу в базе данных кустов .

tHiveInput — читает данные из базы данных улья.

tHiveLoad — записывает данные в таблицу кустов или в указанный каталог.

tHiveRow — выполняет запросы HiveQL к указанной базе данных.

tPigLoad — загружает входные данные в выходной поток.

tPigMap — используется для преобразования и маршрутизации данных в процессе PIG .

tPigJoin — выполняет операцию объединения двух файлов на основе ключей соединения.

tPigCoGroupгруппирует и объединяет данные, поступающие с нескольких входов.

tPigSortсортирует данные на основе одного или нескольких определенных ключей сортировки.

tPigStoreResult — Сохраняет результат операции PIG в определенной области памяти.

tPigFilterRowфильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.

tPigDistinct — удаляет дубликаты кортежей из отношения.

tSqoopImport — переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.

tSqoopExport — переносит данные из HDFS в реляционную базу данных, такую ​​как MySQL, Oracle DB

Talend — распределенная файловая система Hadoop

В этой главе мы подробно узнаем о том, как Talend работает с распределенной файловой системой Hadoop.

Настройки и предварительные условия

Прежде чем мы перейдем к Talend с HDFS, мы должны узнать о настройках и предварительных условиях, которые должны быть выполнены для этой цели.

Здесь мы запускаем Cloudera quickstart 5.10 VM на виртуальной коробке. В этой виртуальной машине должна использоваться сеть только для хоста.

IP-адрес только для хоста: 192.168.56.101

Предварительные реквизиты

У вас должен быть тот же хост, работающий на менеджере Cloudera.

Cloudera Manager

Теперь в вашей системе Windows перейдите в c: \ Windows \ System32 \ Drivers \ etc \ hosts и отредактируйте этот файл с помощью Блокнота, как показано ниже.

Система Windows

Аналогично, на вашей виртуальной машине cloudera quickstart отредактируйте файл / etc / hosts, как показано ниже.

sudo gedit /etc/hosts

Хосты

Настройка подключения Hadoop

На панели хранилища перейдите в раздел Метаданные. Щелкните правой кнопкой мыши Hadoop Cluster и создайте новый кластер. Укажите имя, назначение и описание для этого кластерного соединения Hadoop.

Нажмите кнопку «Далее.

Hadoop Connection

Выберите дистрибутив как cloudera и выберите версию, которую вы используете. Выберите опцию получения конфигурации и нажмите «Далее».

Конфигурация Hadoop

Введите учетные данные менеджера (URI с портом, именем пользователя, паролем), как показано ниже, и нажмите «Подключиться». Если данные верны, вы получите Cloudera QuickStart под обнаруженными кластерами.

Учетные данные менеджера

Нажмите «Получить». Это позволит получить все соединения и конфигурации для HDFS, YARN, HBASE, HIVE.

Выберите Все и нажмите Готово.

Нажмите Fetch

Обратите внимание, что все параметры подключения будут заполнены автоматически. Укажите cloudera в имени пользователя и нажмите Finish.

Параметры подключения

Благодаря этому вы успешно подключились к кластеру Hadoop.

Кластер Hadoop

Подключение к HDFS

В этой работе мы перечислим все каталоги и файлы, которые присутствуют в HDFS.

Сначала мы создадим задание, а затем добавим к нему компоненты HDFS. Щелкните правой кнопкой мыши на Job Design и создайте новую работу — hadoopjob.

Теперь добавьте 2 компонента из палитры — tHDFSConnection и tHDFSList. Щелкните правой кнопкой мыши tHDFSConnection и соедините эти 2 компонента, используя триггер OnSubJobOk.

Теперь настройте оба компонента talend hdfs.

Подключение Hdfs

В tHDFSConnection выберите «Хранилище» в качестве типа свойства и выберите кластер Hadoop cloudera, который вы создали ранее. Он автоматически заполнит все необходимые данные, необходимые для этого компонента.

Тип недвижимости

В tHDFSList выберите «Использовать существующее соединение», а в списке компонентов выберите настроенное соединение tHDFSConnection.

Укажите домашний путь HDFS в каталоге HDFS и нажмите кнопку обзора справа.

Кнопка просмотра

Если вы правильно установили соединение с вышеупомянутыми конфигурациями, вы увидите окно, показанное ниже. В нем будут перечислены все каталоги и файлы, имеющиеся на домашней HDFS.

Просмотр Hdfs

Вы можете убедиться в этом, проверив HDFS на cloudera.

Проверка Hdfs

Чтение файла из HDFS

В этом разделе давайте разберемся, как читать файл из HDFS в Talend. Вы можете создать новую работу для этой цели, однако здесь мы используем существующую.

Перетащите 3 компонента — tHDFSConnection, tHDFSInput и tLogRow из палитры в окно конструктора.

Щелкните правой кнопкой мыши tHDFSConnection и подключите компонент tHDFSInput с помощью триггера OnSubJobOk.

Щелкните правой кнопкой мыши tHDFSInput и перетащите основную ссылку на tLogRow.

Чтение Файла

Обратите внимание, что tHDFSConnection будет иметь конфигурацию, аналогичную ранее. В tHDFSInput выберите «Использовать существующее соединение» и в списке компонентов выберите tHDFSConnection.

В поле Имя файла укажите путь к файлу HDFS, который вы хотите прочитать. Здесь мы читаем простой текстовый файл, поэтому наш тип файла — текстовый файл. Точно так же, в зависимости от вашего ввода, заполните разделитель строк, разделитель полей и данные заголовка, как указано ниже. Наконец, нажмите кнопку Изменить схему.

Кнопка Изменить схему

Поскольку в нашем файле просто текст, мы добавляем только один столбец типа String. Теперь нажмите Ok.

Примечание. Если вход содержит несколько столбцов разных типов, необходимо указать схему здесь соответствующим образом.

Несколько столбцов

В компоненте tLogRow щелкните Синхронизировать столбцы в схеме редактирования.

Выберите режим, в котором вы хотите, чтобы ваш вывод был распечатан.

Выберите режим

Наконец, нажмите Run, чтобы выполнить задание.

После того, как вы успешно прочитали файл HDFS, вы можете увидеть следующий результат.

Успешное чтение

Запись файла в HDFS

Давайте посмотрим, как написать файл из HDFS в Talend. Перетащите 3 компонента — tHDFSConnection, tFileInputDelimited и tHDFSOutput из палитры в окно конструктора.

Щелкните правой кнопкой мыши tHDFSConnection и подключите компонент tFileInputDelimited с помощью триггера OnSubJobOk.

Щелкните правой кнопкой мыши tFileInputDelimited и перетащите основную ссылку в tHDFSOutput.

Главная ссылка

Обратите внимание, что tHDFSConnection будет иметь конфигурацию, аналогичную ранее.

Теперь в tFileInputDelimited укажите путь к входному файлу в опции File name / Stream. Здесь мы используем CSV-файл в качестве входных данных, поэтому разделитель полей — «,».

Выберите верхний и нижний колонтитулы, лимит в соответствии с вашим входным файлом. Обратите внимание, что здесь наш заголовок равен 1, поскольку строка 1 содержит имена столбцов, а ограничение равно 3, поскольку мы записываем только первые 3 строки в HDFS.

Теперь нажмите «Изменить схему».

Выберите заголовок

Теперь, согласно нашему входному файлу, определите схему. Наш входной файл имеет 3 столбца, как указано ниже.

Входной файл

В компоненте tHDFSOutput щелкните по столбцам синхронизации. Затем выберите tHDFSConnection в Использовать существующее соединение. Также в поле «Имя файла» укажите путь HDFS, в который вы хотите записать свой файл.

Обратите внимание, что тип файла будет текстовым, действие будет «создавать», разделитель строк будет «\ n», а разделитель полей — «;»

Разделитель строк

Наконец, нажмите Run, чтобы выполнить вашу работу. После успешного выполнения задания проверьте, есть ли ваш файл в HDFS.

Выполнено успешно

Запустите следующую команду hdfs с выходным путем, который вы упомянули в своей работе.

hdfs dfs -cat /input/talendwrite

Вы увидите следующий вывод, если вы успешно пишете на HDFS.

Запись успешна

Таленд — Карта Уменьшить

В предыдущей главе мы увидели, как Talend работает с большими данными. В этой главе давайте разберемся, как использовать карту Reduce with Talend.

Создание задания Talend MapReduce

Давайте узнаем, как запустить задание MapReduce в Talend. Здесь мы запустим пример подсчета слов в MapReduce.

Для этого щелкните правой кнопкой мыши Job Design и создайте новую работу — MapreduceJob. Упомяните детали работы и нажмите Готово.

Карта Уменьшить Работа

Добавление компонентов в MapReduce Job

Чтобы добавить компоненты в задание MapReduce, перетащите пять компонентов Talend — tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput из окна поддона в конструктор. Щелкните правой кнопкой мыши tHDFSInput и создайте основную ссылку для tNormalize.

Щелкните правой кнопкой мыши tNormalize и создайте основную ссылку на tAggregateRow. Затем щелкните правой кнопкой мыши tAggregateRow и создайте основную ссылку на tMap. Теперь щелкните правой кнопкой мыши на tMap и создайте основную ссылку на tHDFSOutput.

Добавление компонентов Map Reduce

Конфигурирование компонентов и преобразований

В tHDFSInput выберите дистрибутив cloudera и его версию. Обратите внимание, что Namenode URI должен быть «hdfs: //quickstart.cloudera: 8020», а имя пользователя должно быть «cloudera». В опции имени файла укажите путь вашего входного файла к заданию MapReduce. Убедитесь, что этот входной файл присутствует в HDFS.

Теперь выберите тип файла, разделитель строк, разделитель файлов и заголовок в соответствии с вашим входным файлом.

Трансформации

Нажмите на редактировать схему и добавьте поле «line» как строковый тип.

Тип строки

В tNomalize нормализуемым столбцом будет строка, а разделителем элементов будет пробел -> ««. Теперь нажмите «Изменить схему». У tNormalize будет строчный столбец, а у tAggregateRow будет 2 столбца word и wordcount, как показано ниже.

нормироватьСовокупный ряд

В tAggregateRow поместите слово в качестве выходного столбца в Group by option. В операциях укажите wordcount в качестве выходного столбца, функцию в качестве счетчика и позицию столбца ввода в качестве строки.

Количество слов

Теперь дважды щелкните компонент tMap, чтобы войти в редактор карт и сопоставить ввод с требуемым выводом. В этом примере слово отображается с word, а wordcount отображается с wordcount. В столбце выражений нажмите […], чтобы войти в построитель выражений.

Теперь выберите StringHandling из списка категорий и функцию UPCASE. Измените выражение на «StringHandling.UPCASE (row3.word)» и нажмите «ОК». Сохраните row3.wordcount в столбце выражения, соответствующем wordcount, как показано ниже.

Обработка строк

В tHDFSOutput подключитесь к кластеру Hadoop, который мы создали из типа свойства как хранилище. Обратите внимание, что поля будут заполнены автоматически. В поле Имя файла укажите выходной путь, в котором вы хотите сохранить выходные данные. Сохраните действие, разделитель строк и разделитель полей, как показано ниже.

Полевой Разделитель

Выполнение задания MapReduce

Как только ваша конфигурация будет успешно завершена, нажмите Run и выполните задание MapReduce.

Конфигурация успешна

Перейдите на путь HDFS и проверьте вывод. Обратите внимание, что все слова будут в верхнем регистре с их количеством слов.

Путь HDFS

Таленд — работа со свиньей

В этой главе мы узнаем, как работать с заданием «Свинья» в Talend.

Создание Задания Talend Pig

В этом разделе мы узнаем, как запустить задание Pig в Talend. Здесь мы обработаем данные NYSE, чтобы узнать средний объем запасов IBM.

Для этого щелкните правой кнопкой мыши Job Design и создайте новую работу — pigjob. Упомяните детали работы и нажмите Готово.

Talend Pig Job

Добавление компонентов в свиноводство

Чтобы добавить компоненты в задание Pig, перетащите четыре компонента Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, из окна поддона в конструктор.

Затем щелкните правой кнопкой мыши tPigLoad и создайте линию Pig Combine для tPigFilterRow. Затем щелкните правой кнопкой мыши tPigFilterRow и создайте линию Pig Combine для tPigAggregate. Щелкните правой кнопкой мыши tPigAggregate и создайте линию объединения Pig в tPigStoreResult.

Добавление свиньи

Конфигурирование компонентов и преобразований

В tPigLoad упомяните дистрибутив как cloudera и версию cloudera. Обратите внимание, что Namenode URI должен быть «hdfs: //quickstart.cloudera: 8020», а менеджер ресурсов должен быть «quickstart.cloudera: 8020». Кроме того, имя пользователя должно быть «cloudera».

В URI входного файла укажите путь вашего входного файла NYSE к заданию PIG. Обратите внимание, что этот входной файл должен присутствовать в HDFS.

NYSE Input

Нажмите изменить схему, добавьте столбцы и их тип, как показано ниже.

Редактировать схему

В tPigFilterRow выберите опцию «Использовать расширенный фильтр» и поместите «stock_symbol = = ‘IBM’» в опцию Фильтр.

Опция фильтра

В tAggregateRow щелкните по редактировать схему и добавьте столбец avg_stock_volume в вывод, как показано ниже.

Средний объем акций

Теперь поместите столбец stock_exchange в группу по варианту. Добавьте столбец avg_stock_volume в поле «Операции» с параметром count и stock_exchange в качестве входного столбца.

Фондовая биржа

В tPigStoreResult укажите выходной путь в URI папки результатов, где вы хотите сохранить результат задания Pig. Выберите функцию хранилища как PigStorage и разделитель полей (не обязательно) как «\ t».

Свинья Хранение

Выполнение Задания Свиньи

Теперь нажмите Run, чтобы выполнить задание Pig. (Игнорировать предупреждения)

Выполнение Свиноводства

Как только работа закончится, перейдите и проверьте свои выходные данные по пути HDFS, который вы упомянули для сохранения результата работы со свиньей. Средний объем запасов IBM составляет 500.

Хранение Свиньи

Таленд — Улей

В этой главе мы расскажем, как работать с Hive job в Talend.

Создание задания Talend Hive

Например, мы загрузим данные NYSE в таблицу кустов и выполним базовый запрос улья. Щелкните правой кнопкой мыши на Job Design и создайте новую работу — hivejob. Упомяните детали работы и нажмите Готово.

Улей Работа

Добавление компонентов в Hive Job

Чтобы привязать компоненты к заданию Hive, перетащите пять компонентов talend — tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput и tLogRow из окна поддона в конструктор. Затем щелкните правой кнопкой мыши tHiveConnection и создайте триггер OnSubjobOk для tHiveCreateTable. Теперь щелкните правой кнопкой мыши tHiveCreateTable и создайте триггер OnSubjobOk для tHiveLoad. Щелкните правой кнопкой мыши tHiveLoad и создайте итерационный триггер на tHiveInput. Наконец, щелкните правой кнопкой мыши tHiveInput и создайте основную строку для tLogRow.

Добавление компонентов

Конфигурирование компонентов и преобразований

В tHiveConnection выберите дистрибутив в качестве cloudera и его версию, которую вы используете. Обратите внимание, что режим подключения будет автономным, а служба Hive будет Hive 2. Также проверьте, установлены ли следующие параметры соответственно:

  • Ведущий: «quickstart.cloudera»
  • Порт: «10000»
  • База данных: «по умолчанию»
  • Имя пользователя: «улей»

Обратите внимание, что пароль будет заполнен автоматически, вам не нужно его редактировать. Также другие свойства Hadoop будут предустановлены и установлены по умолчанию.

Конфигурирование компонентов

В tHiveCreateTable выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Дайте Имя таблицы, которую вы хотите создать в базе данных по умолчанию. Сохраните остальные параметры, как показано ниже.

Улей Создать таблицу

В tHiveLoad выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Выберите LOAD в действии Load. В поле «Путь к файлу» укажите путь HDFS вашего входного файла NYSE. Укажите в таблице имя таблицы, в которую вы хотите загрузить данные. Сохраните остальные параметры, как показано ниже.

Существующее соединение

В tHiveInput выберите Использовать существующее соединение и поместите tHiveConnection в список компонентов. Нажмите «Изменить схему», добавьте столбцы и их тип, как показано на снимке схемы ниже. Теперь дайте имя таблицы, которую вы создали в tHiveCreateTable.

Поместите ваш запрос в опцию запроса, которую вы хотите запустить в таблице Hive. Здесь мы печатаем все столбцы первых 10 строк в таблице тестового куста.

Соединение ульяSchema_of_tHiveInput

В tLogRow щелкните синхронизировать столбцы и выберите режим таблицы для отображения выходных данных.

Настольный режим

Выполнение задания улья

Нажмите Run, чтобы начать выполнение. Если все соединение и параметры были установлены правильно, вы увидите вывод вашего запроса, как показано ниже.