Статьи

Серенгети помогает предприятиям реагировать на проблему больших данных

Аналитическая платформа корпоративных требований

Принятие больших данных на предприятии традиционно затрудняется отсутствием пригодных для использования инструментов корпоративного уровня и нехваткой навыков внедрения.

Корпоративные ИТ находятся под огромным давлением для предоставления аналитической платформы Big Data. Большая часть этого спроса в настоящее время относится к пилотным реализациям Hadoop с менее чем 20 узлами, которые призваны доказать свою ценность для предоставления нового бизнес-понимания. Gartner прогнозирует, что этот спрос будет увеличиваться на 800 процентов в течение следующих пяти лет.

Взрывной рост таких запросов в компаниях среднего и крупного размера делает ИТ-отделы неспособными удовлетворить этот спрос. Кроме того, Hadoop и все его экосистемные инструменты часто слишком сложны для развертывания и управления для многих из этих организаций.

В результате корпоративные пользователи, разочарованные этими задержками, часто предпочитают обходить ИТ и переходят напрямую к поставщикам аналитических услуг в режиме онлайн. Несмотря на удовлетворенность непосредственностью доступа, они часто ставят под угрозу многие корпоративные политики в отношении данных, неэффективно распространяют данные и налагают большие расходы из-за непредсказуемых моделей ценообразования.

Хорошая новость заключается в том, что корпоративные ИТ-специалисты признали эту проблему и в настоящее время находятся в процессе переоснащения для решения проблемы нехватки навыков развертывания и управления Hadoop.

Знакомьтесь, Серенгети, корпоративный ускоритель больших данных

В VMworld у нас была возможность продемонстрировать решение VMware для этой проблемы с помощью  недавно анонсированного проекта Serengeti с открытым исходным кодом . Serengeti позволяет быстро развертывать стандартизированные кластеры Apache Hadoop на существующей виртуальной платформе, используя циклы запасных машин, без необходимости приобретать дополнительное оборудование или программное обеспечение.

Наша демонстрация продемонстрировала, как Serengeti, со своим стандартизированным подходом к развертыванию и управлению, может предоставить аналитическую платформу корпоративного уровня с непревзойденным «временем окупаемости». (Это время, которое требуется от начала развертывания Hadoop до анализа данных на вновь созданном полнофункциональном кластере.)

В следующем видео показано, как Serengeti может развернуть стандартизированный кластер Hadoop с помощью одной команды менее чем за 10 минут.

 

Декларативное развертывание

Помимо очевидного повышения эффективности, Serengeti также обеспечивает декларативный подход к развертыванию Hadoop. Этот подход, основанный на спецификациях, обеспечивает повторяемое стандартизированное развертывание с непревзойденной степенью детализации управления конфигурацией и топологией кластера.

В дополнение к настройке на уровне инфраструктуры, Serengeti также позволяет настраивать атрибуты Hadoop, обычно находящиеся в многочисленных файлах конфигурации Hadoop: core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh и log4j. свойства:

…"configuration": {
    "hadoop": {
      "core-site.xml": {
        // check for all settings at http://hadoop.apache.org/common/docs/r1.0.0/core-default.html
      },
      "hdfs-site.xml": {
        // check for all settings at http://hadoop.apache.org/common/docs/r1.0.0/hdfs-default.html
      },
      "mapred-site.xml": {
        // check for all settings at http://hadoop.apache.org/common/docs/r1.0.0/mapred-default.html
        "io.sort.mb": "300"
      } ,
      "hadoop-env.sh": {
        // "HADOOP_HEAPSIZE": "",
        // "HADOOP_NAMENODE_OPTS": "",
        // "HADOOP_DATANODE_OPTS": "",
…

Вышеупомянутый единственный файл спецификации, включая конфигурацию уровня Hadoop, может быть выполнен из кластера Serengeti с помощью команды config:

> cluster config -name demoCluster
                 -specFile /home/demo/smallDemoCluster.json

Не только Hadoop

В дополнение к повышению эффективности при развертывании Hadoop, которое мы продемонстрировали выше, Serengeti также упрощает интеграцию Hadoop с существующими системами без необходимости постоянного копирования данных через его службы ODBC / JDBC, а также Pig и Hive для исследования больших данных. устанавливает уже в HDFS.

Ниже приведен пример базового рабочего процесса вместе с примерами команд для поддержки кластера Hadoop, управления его размером, импорта данных, выполнения задания MapReduce и представления его результатов потребителям данных через интегрированный сервер Hive.

Развертывание кластера Hadoop

> cluster create –name demoCluster

Управление существующим кластером Hadoop

> cluster resize –name demoCluster
                 –nodeGroup worker
                 –instanceNum 10

Импорт / Загрузка данных

> fs ls /tmp
> fs put –from /tmp/local.data –to /tmp/hdfs.data

Выполнять задания MapReduce / Pig / Hive

> cluster target –name demoCluster
> mr jar –jarfile /opt/big-calc-1.0.0.jar
         –mainclass com.company.data.calc.BigJob
         –args “arg1 arg2 arg3”

Настройте сервер Hive для служб ODBC / JDBC

…
"name": "client",
"roles": [
   "hadoop_client",
   "hive",
   "hive_server",
   "pig"
],
…

Переезд в производство

Помимо повышения эффективности пилотного внедрения, стоит отметить, что Serengeti также предлагает ряд усовершенствований корпоративного уровня, которые ИТ-специалисты ожидают в своей производственной среде. Здесь стоит выделить два пункта: высокая доступность (HA) и отказоустойчивость (FT).

HA — защита от сбоев хоста и виртуальной машины

VMware в сотрудничестве с  Hortonworks включил в Serengeti защиту от сбоев Node Name (NN) и Job Tracker (JT). Serengeti автоматически обнаруживает сбой и может за несколько минут перезапустить виртуальную машину на любом из доступных хостов в кластере Hadoop. Задания Hadoop, которые уже выполняются, будут приостановлены и возобновлены Серенгети, когда будет запущен узел имени.

В отличие от HA, доступного в HDFS 2, Serengeti HA охватывает все основные сервисы, а также Apache Hadoop версии 1.

FT — обеспечивает непрерывную защиту

Еще более расширяя понятие защиты, Serengeti, будучи правильно настроенным на  vSphere , обеспечивает систему Hadoop с нулевым временем простоя, предотвращая потерю данных не только для Name Node и Job Tracker, но и для других компонентов в кластере Hadoop.

Serengeti, используя тесную интеграцию со службами VMware HA / DRS, может обеспечить непрерывную защиту для узлов Hadoop без необходимости сложной кластеризации или специального оборудования, в то же время влияя на производительность только номинальным образом. (Замедление на 2-4% для TeraSort)

В итоге

В настоящее время корпоративные ИТ-подразделения вынуждены реагировать на растущие требования к надежной платформе больших данных; предоставление пользователям возможности оценить растущие объемы данных для потенциального понимания бизнеса.

Ускоряя процесс развертывания Hadoop и предоставляя самое быстрое время для понимания бизнеса, Серенгети находится в командном центре, что делает этот процесс, основанный на методах проб и ошибок, более надежным и эффективным. Serengeti значительно упрощает взаимодействие с пользователем, позволяя пользователям сосредоточиться на данных и их алгоритмах. — не базовая инфраструктура.

Учить больше

Марк Чмарный

О Марке Чмарном

За свою более чем 15-летнюю карьеру Марк Чмарни работал в различных отраслях, а в последнее время работал облачным архитектором в EMC, где он разрабатывал решения облачных вычислений как для поставщиков услуг, так и для корпоративных клиентов. В VMware Марк является экспертом по решениям для данных в группе облачных платформ приложений. Марк получил степень инженера-механика в Техническом университете в Вене, Австрия и степень бакалавра в области коммуникационных искусств в Университете Малтнома в Портленде, штат Орегон.