Статьи

MapReduce and Yarn: блок обработки Hadoop, часть 1

В моей предыдущей статье «  Архитектура и функциональность HDFS» я описал файловую систему Hadoop. Сегодня мы узнаем о его обработке. В основном существует два механизма, с помощью которых происходит обработка в кластере Hadoop, а именно MapReduce и YARN. В нашей традиционной системе основное внимание уделяется переносу данных в хранилище. В процессе Hadoop фокус смещается в сторону увеличения мощности обработки данных для инициирования параллельной обработки. Итак, здесь мы пройдем MapReduce и, во второй части, YARN .

Уменьшение карты

Как следует из названия, обработка в основном происходит в два этапа, отображение и сокращение. Существует один мастер (трекер заданий), который контролирует выполнение на нескольких подчиненных (трекер задач). Job Tracker принимает задания MapReduce, отправленные клиентом. Он выдвигает карту и сводит задачи в Task Tracker, а также отслеживает их состояние. Основная функция трекеров задач — запустить карту и уменьшить количество задач. Они также управляют и хранят промежуточный вывод задач.

Mapreduce в Hadoop


Вам также может понравиться:
Программа Word Count с MapReduce и Java .

Фаза картографирования

Это относительно небольшая программа с простой задачей. Он отвечает за реализацию части данных входного файла (в основном один блок одного файла). Интерпретация, фильтрация и преобразование данных необходимы для создания потока пар ключ-значение. Один узел выбран для обработки данных на основе ключа. MapReduce прозрачно управляет всем этим движением.

Фаза картографирования


Джава