Строка тега для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных». В этой главе мы рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных. ,
Вступление
Talend Open Studio — Big Data — это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio имеется множество компонентов с большими данными, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.
Кроме того, нам не нужно писать большие строки кодов MapReduce; Talend Open Studio Большие данные помогут вам сделать это с помощью компонентов, присутствующих в нем. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.
Это также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.
Компоненты Talend для больших данных
Список категорий с компонентами для выполнения задания в среде больших данных, включенных в Big Data, показан ниже —
Список соединителей и компонентов Big Data в Talend Open Studio показан ниже —
tHDFSConnection — используется для подключения к HDFS (распределенная файловая система Hadoop).
tHDFSInput — читает данные по заданному пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.
tHDFSList — извлекает все файлы и папки по указанному пути hdfs.
tHDFSPut — копирует файл / папку из локальной файловой системы (определяемой пользователем) в hdf по указанному пути.
tHDFSGet — Копирует файл / папку из hdfs в локальную файловую систему (определяется пользователем) по заданному пути.
tHDFSDelete — удаляет файл из HDFS
tHDFSExist — Проверяет, присутствует ли файл в HDFS или нет.
tHDFSOutput — записывает потоки данных в HDFS.
tCassandraConnection — открывает соединение с сервером Cassandra.
tCassandraRow — Запускает CQL (язык запросов Cassandra) в указанной базе данных.
tHBaseConnection — открывает соединение с базой данных HBase.
tHBaseInput — читает данные из базы данных HBase.
tHiveConnection — открывает соединение с базой данных Hive.
tHiveCreateTable — создает таблицу в базе данных кустов .
tHiveInput — читает данные из базы данных улья.
tHiveLoad — записывает данные в таблицу кустов или в указанный каталог.
tHiveRow — выполняет запросы HiveQL к указанной базе данных.
tPigLoad — загружает входные данные в выходной поток.
tPigMap — используется для преобразования и маршрутизации данных в процессе PIG .
tPigJoin — выполняет операцию объединения двух файлов на основе ключей соединения.
tPigCoGroup — группирует и объединяет данные, поступающие с нескольких входов.
tPigSort — сортирует данные на основе одного или нескольких определенных ключей сортировки.
tPigStoreResult — Сохраняет результат операции PIG в определенной области памяти.
tPigFilterRow — фильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.
tPigDistinct — удаляет дубликаты кортежей из отношения.
tSqoopImport — переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.
tSqoopExport — переносит данные из HDFS в реляционную базу данных, такую как MySQL, Oracle DB