Строка тега для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных». В этой главе мы рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных. ,
Вступление
Talend Open Studio – Big Data – это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio имеется множество компонентов с большими данными, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.
Кроме того, нам не нужно писать большие строки кодов MapReduce; Talend Open Studio Большие данные помогут вам сделать это с помощью компонентов, присутствующих в нем. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.
Это также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.
Компоненты Talend для больших данных
Список категорий с компонентами для выполнения задания в среде больших данных, включенных в Big Data, показан ниже –
Список соединителей и компонентов Big Data в Talend Open Studio показан ниже –
tHDFSConnection – используется для подключения к HDFS (распределенная файловая система Hadoop).
tHDFSInput – читает данные по заданному пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.
tHDFSList – извлекает все файлы и папки по указанному пути hdfs.
tHDFSPut – копирует файл / папку из локальной файловой системы (определяемой пользователем) в hdf по указанному пути.
tHDFSGet – Копирует файл / папку из hdfs в локальную файловую систему (определяется пользователем) по заданному пути.
tHDFSDelete – удаляет файл из HDFS
tHDFSExist – Проверяет, присутствует ли файл в HDFS или нет.
tHDFSOutput – записывает потоки данных в HDFS.
tCassandraConnection – открывает соединение с сервером Cassandra.
tCassandraRow – Запускает CQL (язык запросов Cassandra) в указанной базе данных.
tHBaseConnection – открывает соединение с базой данных HBase.
tHBaseInput – читает данные из базы данных HBase.
tHiveConnection – открывает соединение с базой данных Hive.
tHiveCreateTable – создает таблицу в базе данных кустов .
tHiveInput – читает данные из базы данных улья.
tHiveLoad – записывает данные в таблицу кустов или в указанный каталог.
tHiveRow – выполняет запросы HiveQL к указанной базе данных.
tPigLoad – загружает входные данные в выходной поток.
tPigMap – используется для преобразования и маршрутизации данных в процессе PIG .
tPigJoin – выполняет операцию объединения двух файлов на основе ключей соединения.
tPigCoGroup – группирует и объединяет данные, поступающие с нескольких входов.
tPigSort – сортирует данные на основе одного или нескольких определенных ключей сортировки.
tPigStoreResult – Сохраняет результат операции PIG в определенной области памяти.
tPigFilterRow – фильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.
tPigDistinct – удаляет дубликаты кортежей из отношения.
tSqoopImport – переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.
tSqoopExport – переносит данные из HDFS в реляционную базу данных, такую как MySQL, Oracle DB