Учебники

Таленд – Большие данные

Строка тега для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного ETL-инструмента с открытым исходным кодом для больших данных». В этой главе мы рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных. ,

Вступление

Talend Open Studio – Big Data – это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio имеется множество компонентов с большими данными, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.

Кроме того, нам не нужно писать большие строки кодов MapReduce; Talend Open Studio Большие данные помогут вам сделать это с помощью компонентов, присутствующих в нем. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.

Это также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.

Компоненты Talend для больших данных

Список категорий с компонентами для выполнения задания в среде больших данных, включенных в Big Data, показан ниже –

Большие данные

Список соединителей и компонентов Big Data в Talend Open Studio показан ниже –

tHDFSConnection – используется для подключения к HDFS (распределенная файловая система Hadoop).

tHDFSInput – читает данные по заданному пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.

tHDFSListизвлекает все файлы и папки по указанному пути hdfs.

tHDFSPutкопирует файл / папку из локальной файловой системы (определяемой пользователем) в hdf по указанному пути.

tHDFSGet – Копирует файл / папку из hdfs в локальную файловую систему (определяется пользователем) по заданному пути.

tHDFSDelete – удаляет файл из HDFS

tHDFSExist – Проверяет, присутствует ли файл в HDFS или нет.

tHDFSOutput – записывает потоки данных в HDFS.

tCassandraConnection – открывает соединение с сервером Cassandra.

tCassandraRow – Запускает CQL (язык запросов Cassandra) в указанной базе данных.

tHBaseConnection – открывает соединение с базой данных HBase.

tHBaseInput – читает данные из базы данных HBase.

tHiveConnection – открывает соединение с базой данных Hive.

tHiveCreateTable – создает таблицу в базе данных кустов .

tHiveInput – читает данные из базы данных улья.

tHiveLoad – записывает данные в таблицу кустов или в указанный каталог.

tHiveRow – выполняет запросы HiveQL к указанной базе данных.

tPigLoad – загружает входные данные в выходной поток.

tPigMap – используется для преобразования и маршрутизации данных в процессе PIG .

tPigJoin – выполняет операцию объединения двух файлов на основе ключей соединения.

tPigCoGroupгруппирует и объединяет данные, поступающие с нескольких входов.

tPigSortсортирует данные на основе одного или нескольких определенных ключей сортировки.

tPigStoreResult – Сохраняет результат операции PIG в определенной области памяти.

tPigFilterRowфильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.

tPigDistinct – удаляет дубликаты кортежей из отношения.

tSqoopImport – переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.

tSqoopExport – переносит данные из HDFS в реляционную базу данных, такую ​​как MySQL, Oracle DB