Zookeeper предоставляет гибкую координационную инфраструктуру для распределенной среды. Платформа ZooKeeper поддерживает многие из лучших на сегодняшний день промышленных приложений. Мы обсудим некоторые из наиболее заметных применений ZooKeeper в этой главе.
Yahoo!
Фреймворк ZooKeeper изначально был создан в Yahoo! Хорошо спроектированное распределенное приложение должно отвечать таким требованиям, как прозрачность данных, лучшая производительность, надежность, централизованная конфигурация и координация. Таким образом, они разработали платформу ZooKeeper для удовлетворения этих требований.
Apache Hadoop
Apache Hadoop является движущей силой роста индустрии больших данных. Hadoop использует ZooKeeper для управления конфигурацией и координации. Давайте рассмотрим сценарий, чтобы понять роль ZooKeeper в Hadoop.
Предположим, что кластер Hadoop соединяет 100 или более обычных серверов . Следовательно, существует необходимость в услугах по координации и наименованию. Поскольку в расчет вовлечено большое количество узлов, каждый узел должен синхронизироваться друг с другом, знать, где получить доступ к службам, и знать, как их следует настраивать. На данный момент кластерам Hadoop требуются межузловые сервисы. ZooKeeper предоставляет средства для межузловой синхронизации и обеспечивает сериализацию и синхронизацию задач в проектах Hadoop.
Несколько серверов ZooKeeper поддерживают большие кластеры Hadoop. Каждый клиентский компьютер связывается с одним из серверов ZooKeeper для получения и обновления информации о синхронизации. Некоторые из примеров в реальном времени —
-
Проект «Геном человека» — проект «Геном человека» содержит терабайты данных. Среду Hadoop MapReduce можно использовать для анализа набора данных и поиска интересных фактов для развития человека.
-
Здравоохранение — больницы могут хранить, извлекать и анализировать огромные наборы медицинских карт пациентов, которые обычно находятся в терабайтах.
Проект «Геном человека» — проект «Геном человека» содержит терабайты данных. Среду Hadoop MapReduce можно использовать для анализа набора данных и поиска интересных фактов для развития человека.
Здравоохранение — больницы могут хранить, извлекать и анализировать огромные наборы медицинских карт пациентов, которые обычно находятся в терабайтах.
Apache HBase
Apache HBase — это распределенная база данных NoSQL с открытым исходным кодом, используемая для доступа в режиме реального времени для чтения / записи больших наборов данных и работающая поверх HDFS. HBase следует архитектуре ведущий-ведомый, где ведущий HBase управляет всеми ведомыми. Рабы называются серверами региона .
Установка распределенного приложения HBase зависит от работающего кластера ZooKeeper. Apache HBase использует ZooKeeper для отслеживания состояния распределенных данных на главных и региональных серверах с помощью централизованного управления конфигурацией и механизмов распределенного мьютекса . Вот несколько примеров использования HBase —
-
Телеком — Телекоммуникационная индустрия хранит миллиарды записей о мобильных вызовах (около 30 ТБ / месяц), и доступ к этим записям в реальном времени становится огромной задачей. HBase может использоваться для простой и эффективной обработки всех записей в режиме реального времени.
-
Социальная сеть — Подобно индустрии телекоммуникаций, такие сайты, как Twitter, LinkedIn и Facebook, получают огромные объемы данных через сообщения, созданные пользователями. HBase можно использовать для поиска последних тенденций и других интересных фактов.
Телеком — Телекоммуникационная индустрия хранит миллиарды записей о мобильных вызовах (около 30 ТБ / месяц), и доступ к этим записям в реальном времени становится огромной задачей. HBase может использоваться для простой и эффективной обработки всех записей в режиме реального времени.
Социальная сеть — Подобно индустрии телекоммуникаций, такие сайты, как Twitter, LinkedIn и Facebook, получают огромные объемы данных через сообщения, созданные пользователями. HBase можно использовать для поиска последних тенденций и других интересных фактов.
Apache Solr
Apache Solr — это быстрая поисковая платформа с открытым исходным кодом, написанная на Java. Это невероятно быстрый, отказоустойчивый распределенный поисковик. Созданный на основе Lucene , это высокопроизводительный, полнофункциональный механизм поиска текста.
Solr широко использует все функции ZooKeeper, такие как управление конфигурацией, выбор лидера, управление узлами, блокировка и синхронизация данных.
Solr состоит из двух частей: индексация и поиск . Индексирование — это процесс хранения данных в надлежащем формате, чтобы их можно было искать позже. Solr использует ZooKeeper как для индексации данных на нескольких узлах, так и для поиска на нескольких узлах. ZooKeeper предоставляет следующие функции —
-
Добавить / удалить узлы по мере необходимости
-
Репликация данных между узлами с последующей минимизацией потери данных
-
Обмен данными между несколькими узлами и последующий поиск по нескольким узлам для более быстрых результатов поиска
Добавить / удалить узлы по мере необходимости
Репликация данных между узлами с последующей минимизацией потери данных
Обмен данными между несколькими узлами и последующий поиск по нескольким узлам для более быстрых результатов поиска
Некоторые примеры использования Apache Solr включают электронную коммерцию, поиск работы и т. Д.