Учебники

Zookeeper — Приложения

Zookeeper предоставляет гибкую координационную инфраструктуру для распределенной среды. Платформа ZooKeeper поддерживает многие из лучших на сегодняшний день промышленных приложений. Мы обсудим некоторые из наиболее заметных применений ZooKeeper в этой главе.

Yahoo!

Фреймворк ZooKeeper изначально был создан в Yahoo! Хорошо спроектированное распределенное приложение должно отвечать таким требованиям, как прозрачность данных, лучшая производительность, надежность, централизованная конфигурация и координация. Таким образом, они разработали платформу ZooKeeper для удовлетворения этих требований.

Apache Hadoop

Apache Hadoop является движущей силой роста индустрии больших данных. Hadoop использует ZooKeeper для управления конфигурацией и координации. Давайте рассмотрим сценарий, чтобы понять роль ZooKeeper в Hadoop.

Предположим, что кластер Hadoop соединяет 100 или более обычных серверов . Следовательно, существует необходимость в услугах по координации и наименованию. Поскольку в расчет вовлечено большое количество узлов, каждый узел должен синхронизироваться друг с другом, знать, где получить доступ к службам, и знать, как их следует настраивать. На данный момент кластерам Hadoop требуются межузловые сервисы. ZooKeeper предоставляет средства для межузловой синхронизации и обеспечивает сериализацию и синхронизацию задач в проектах Hadoop.

Несколько серверов ZooKeeper поддерживают большие кластеры Hadoop. Каждый клиентский компьютер связывается с одним из серверов ZooKeeper для получения и обновления информации о синхронизации. Некоторые из примеров в реальном времени —

  • Проект «Геном человека»проект «Геном человека» содержит терабайты данных. Среду Hadoop MapReduce можно использовать для анализа набора данных и поиска интересных фактов для развития человека.

  • Здравоохранение — больницы могут хранить, извлекать и анализировать огромные наборы медицинских карт пациентов, которые обычно находятся в терабайтах.

Проект «Геном человека»проект «Геном человека» содержит терабайты данных. Среду Hadoop MapReduce можно использовать для анализа набора данных и поиска интересных фактов для развития человека.

Здравоохранение — больницы могут хранить, извлекать и анализировать огромные наборы медицинских карт пациентов, которые обычно находятся в терабайтах.

Apache HBase

Apache HBase — это распределенная база данных NoSQL с открытым исходным кодом, используемая для доступа в режиме реального времени для чтения / записи больших наборов данных и работающая поверх HDFS. HBase следует архитектуре ведущий-ведомый, где ведущий HBase управляет всеми ведомыми. Рабы называются серверами региона .

Установка распределенного приложения HBase зависит от работающего кластера ZooKeeper. Apache HBase использует ZooKeeper для отслеживания состояния распределенных данных на главных и региональных серверах с помощью централизованного управления конфигурацией и механизмов распределенного мьютекса . Вот несколько примеров использования HBase —

  • Телеком — Телекоммуникационная индустрия хранит миллиарды записей о мобильных вызовах (около 30 ТБ / месяц), и доступ к этим записям в реальном времени становится огромной задачей. HBase может использоваться для простой и эффективной обработки всех записей в режиме реального времени.

  • Социальная сеть — Подобно индустрии телекоммуникаций, такие сайты, как Twitter, LinkedIn и Facebook, получают огромные объемы данных через сообщения, созданные пользователями. HBase можно использовать для поиска последних тенденций и других интересных фактов.

Телеком — Телекоммуникационная индустрия хранит миллиарды записей о мобильных вызовах (около 30 ТБ / месяц), и доступ к этим записям в реальном времени становится огромной задачей. HBase может использоваться для простой и эффективной обработки всех записей в режиме реального времени.

Социальная сеть — Подобно индустрии телекоммуникаций, такие сайты, как Twitter, LinkedIn и Facebook, получают огромные объемы данных через сообщения, созданные пользователями. HBase можно использовать для поиска последних тенденций и других интересных фактов.

Apache Solr

Apache Solr — это быстрая поисковая платформа с открытым исходным кодом, написанная на Java. Это невероятно быстрый, отказоустойчивый распределенный поисковик. Созданный на основе Lucene , это высокопроизводительный, полнофункциональный механизм поиска текста.

Solr широко использует все функции ZooKeeper, такие как управление конфигурацией, выбор лидера, управление узлами, блокировка и синхронизация данных.

Solr состоит из двух частей: индексация и поиск . Индексирование — это процесс хранения данных в надлежащем формате, чтобы их можно было искать позже. Solr использует ZooKeeper как для индексации данных на нескольких узлах, так и для поиска на нескольких узлах. ZooKeeper предоставляет следующие функции —

  • Добавить / удалить узлы по мере необходимости

  • Репликация данных между узлами с последующей минимизацией потери данных

  • Обмен данными между несколькими узлами и последующий поиск по нескольким узлам для более быстрых результатов поиска

Добавить / удалить узлы по мере необходимости

Репликация данных между узлами с последующей минимизацией потери данных

Обмен данными между несколькими узлами и последующий поиск по нескольким узлам для более быстрых результатов поиска

Некоторые примеры использования Apache Solr включают электронную коммерцию, поиск работы и т. Д.