Apache Flume — это инструмент, позволяющий собирать и обрабатывать большие объемы потоковых данных, таких как файлы журналов, события (и т. Д.), Из различных источников в централизованное хранилище данных.
Flume — это высоконадежный, распределенный и настраиваемый инструмент. Он предназначен главным образом для копирования потоковых данных (данных журнала) с различных веб-серверов в HDFS.
Применение Flume
Предположим, что веб-приложение электронной коммерции хочет проанализировать поведение клиентов в конкретном регионе. Для этого им необходимо переместить доступные данные журнала в Hadoop для анализа. Здесь Apache Flume приходит нам на помощь.
Flume используется для перемещения данных журнала, генерируемых серверами приложений, в HDFS с более высокой скоростью.
Преимущества Flume
Вот преимущества использования Flume —
-
Используя Apache Flume, мы можем хранить данные в любом из централизованных хранилищ (HBase, HDFS).
-
Когда скорость входящих данных превышает скорость, с которой данные могут быть записаны в место назначения, Flume выступает в качестве посредника между производителями данных и централизованными хранилищами и обеспечивает устойчивый поток данных между ними.
-
Flume предоставляет возможность контекстной маршрутизации .
-
Транзакции в Flume основаны на каналах, где для каждого сообщения поддерживаются две транзакции (один отправитель и один получатель). Это гарантирует надежную доставку сообщений.
-
Flume является надежным, отказоустойчивым, масштабируемым, управляемым и настраиваемым.
Используя Apache Flume, мы можем хранить данные в любом из централизованных хранилищ (HBase, HDFS).
Когда скорость входящих данных превышает скорость, с которой данные могут быть записаны в место назначения, Flume выступает в качестве посредника между производителями данных и централизованными хранилищами и обеспечивает устойчивый поток данных между ними.
Flume предоставляет возможность контекстной маршрутизации .
Транзакции в Flume основаны на каналах, где для каждого сообщения поддерживаются две транзакции (один отправитель и один получатель). Это гарантирует надежную доставку сообщений.
Flume является надежным, отказоустойчивым, масштабируемым, управляемым и настраиваемым.
Особенности Flume
Некоторые из примечательных особенностей Flume следующие:
Flume эффективно загружает данные журнала с нескольких веб-серверов в централизованное хранилище (HDFS, HBase).
Используя Flume, мы можем сразу получить данные с нескольких серверов в Hadoop.
Вместе с файлами журналов Flume также используется для импорта огромных объемов данных о событиях, создаваемых социальными сетями, такими как Facebook и Twitter, а также сайтами электронной коммерции, такими как Amazon и Flipkart.
Flume поддерживает большой набор типов источников и направлений.
Flume поддерживает многоскачковые потоки, потоки разветвления, контекстную маршрутизацию и т. Д.
Flume можно масштабировать по горизонтали.