Учебники

Таленд — Большие данные

Строка тега для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных». В этой главе мы рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных. ,

Вступление

Talend Open Studio — Big Data — это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio имеется множество компонентов с большими данными, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.

Кроме того, нам не нужно писать большие строки кодов MapReduce; Talend Open Studio Большие данные помогут вам сделать это с помощью компонентов, присутствующих в нем. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.

Это также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.

Компоненты Talend для больших данных

Список категорий с компонентами для выполнения задания в среде больших данных, включенных в Big Data, показан ниже —

Большие данные

Список соединителей и компонентов Big Data в Talend Open Studio показан ниже —

tHDFSConnection — используется для подключения к HDFS (распределенная файловая система Hadoop).

tHDFSInput — читает данные по заданному пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.

tHDFSListизвлекает все файлы и папки по указанному пути hdfs.

tHDFSPutкопирует файл / папку из локальной файловой системы (определяемой пользователем) в hdf по указанному пути.

tHDFSGet — Копирует файл / папку из hdfs в локальную файловую систему (определяется пользователем) по заданному пути.

tHDFSDelete — удаляет файл из HDFS

tHDFSExist — Проверяет, присутствует ли файл в HDFS или нет.

tHDFSOutput — записывает потоки данных в HDFS.

tCassandraConnection — открывает соединение с сервером Cassandra.

tCassandraRow — Запускает CQL (язык запросов Cassandra) в указанной базе данных.

tHBaseConnection — открывает соединение с базой данных HBase.

tHBaseInput — читает данные из базы данных HBase.

tHiveConnection — открывает соединение с базой данных Hive.

tHiveCreateTable — создает таблицу в базе данных кустов .

tHiveInput — читает данные из базы данных улья.

tHiveLoad — записывает данные в таблицу кустов или в указанный каталог.

tHiveRow — выполняет запросы HiveQL к указанной базе данных.

tPigLoad — загружает входные данные в выходной поток.

tPigMap — используется для преобразования и маршрутизации данных в процессе PIG .

tPigJoin — выполняет операцию объединения двух файлов на основе ключей соединения.

tPigCoGroupгруппирует и объединяет данные, поступающие с нескольких входов.

tPigSortсортирует данные на основе одного или нескольких определенных ключей сортировки.

tPigStoreResult — Сохраняет результат операции PIG в определенной области памяти.

tPigFilterRowфильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.

tPigDistinct — удаляет дубликаты кортежей из отношения.

tSqoopImport — переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.

tSqoopExport — переносит данные из HDFS в реляционную базу данных, такую ​​как MySQL, Oracle DB