Учебники

Apache Flume — Введение

Apache Flume — это инструмент, позволяющий собирать и обрабатывать большие объемы потоковых данных, таких как файлы журналов, события (и т. Д.), Из различных источников в централизованное хранилище данных.

Flume — это высоконадежный, распределенный и настраиваемый инструмент. Он предназначен главным образом для копирования потоковых данных (данных журнала) с различных веб-серверов в HDFS.

Apache Flume

Применение Flume

Предположим, что веб-приложение электронной коммерции хочет проанализировать поведение клиентов в конкретном регионе. Для этого им необходимо переместить доступные данные журнала в Hadoop для анализа. Здесь Apache Flume приходит нам на помощь.

Flume используется для перемещения данных журнала, генерируемых серверами приложений, в HDFS с более высокой скоростью.

Преимущества Flume

Вот преимущества использования Flume —

  • Используя Apache Flume, мы можем хранить данные в любом из централизованных хранилищ (HBase, HDFS).

  • Когда скорость входящих данных превышает скорость, с которой данные могут быть записаны в место назначения, Flume выступает в качестве посредника между производителями данных и централизованными хранилищами и обеспечивает устойчивый поток данных между ними.

  • Flume предоставляет возможность контекстной маршрутизации .

  • Транзакции в Flume основаны на каналах, где для каждого сообщения поддерживаются две транзакции (один отправитель и один получатель). Это гарантирует надежную доставку сообщений.

  • Flume является надежным, отказоустойчивым, масштабируемым, управляемым и настраиваемым.

Используя Apache Flume, мы можем хранить данные в любом из централизованных хранилищ (HBase, HDFS).

Когда скорость входящих данных превышает скорость, с которой данные могут быть записаны в место назначения, Flume выступает в качестве посредника между производителями данных и централизованными хранилищами и обеспечивает устойчивый поток данных между ними.

Flume предоставляет возможность контекстной маршрутизации .

Транзакции в Flume основаны на каналах, где для каждого сообщения поддерживаются две транзакции (один отправитель и один получатель). Это гарантирует надежную доставку сообщений.

Flume является надежным, отказоустойчивым, масштабируемым, управляемым и настраиваемым.

Особенности Flume

Некоторые из примечательных особенностей Flume следующие:

Flume эффективно загружает данные журнала с нескольких веб-серверов в централизованное хранилище (HDFS, HBase).

Используя Flume, мы можем сразу получить данные с нескольких серверов в Hadoop.

Вместе с файлами журналов Flume также используется для импорта огромных объемов данных о событиях, создаваемых социальными сетями, такими как Facebook и Twitter, а также сайтами электронной коммерции, такими как Amazon и Flipkart.

Flume поддерживает большой набор типов источников и направлений.

Flume поддерживает многоскачковые потоки, потоки разветвления, контекстную маршрутизацию и т. Д.

Flume можно масштабировать по горизонтали.