Статьи

Сборка Apache Zeppelin для MapR с использованием Spark под YARN

Apache Zeppelin — это веб-блокнот, позволяющий проводить интерактивную аналитику данных. Вы можете создавать красивые управляемые данными, интерактивные и совместные документы с помощью Spark SQL, Scala, Hive, Flink, Kylin и других. Zeppelin обеспечивает быструю разработку рабочих процессов Spark и Hadoop с помощью простых и удобных визуализаций. Код от Zeppelin можно использовать в записных книжках Zeppelin или скомпилировать и упаковать в готовые приложения.

Zeppeline-Блог-Img1

С текущей основной ветки (и кандидата на выпуск) все профили сборки MapR теперь включены в репозиторий Apache Zeppelin . Четыре профиля, mapr3, mapr40, mapr41 и mapr50, создадут Zeppelin с соответствующими зависимостями MapR.

Этот блог содержит инструкции по сборке с профилями MapR. Построение интерпретатора Hive для MapR включено, но зависимости закомментированы в файле Hive pom.xml.

Некоторые предположения

  1. Кластер с MapR 4.0.x / 5.x и Apache Spark (1.2.x, 1.3.x или 1.4.x), работающий под YARN
  2. Возможность редактировать пару текстовых файлов
  3. Приличный браузер
  4. Машина (узел или ребро) для запуска сервера Zeppelin. Для этого требуется mapr-spark и, по крайней мере, установлен клиент MapR.
  5. Git клиент, npm и Maven 3.x

Что тебе нужно сделать?

  1. Убедитесь, что на вашем компьютере установлен хотя бы клиент MapR и Spark. Проверьте это, выполнив hadoop fs -ls / и оболочку Spark (например, версия 1.2.1).
    1
    /opt/mapr/spark/spark-1.2.1/bin/spark-shell
  2. Найдите хороший каталог и запустите git clone
    1
    https://github.com/apache/incubator-zeppelin zeppelin
  3. cd zeppelin
  4. Постройте его (версия MapR 4.0.x):
    1
    mvn clean package -Pbuild-distr -Pmapr40 -Pyarn -Pspark-1.2 -DskipTests

    (для версии MapR 4.1):

    1
    mvn clean package -Pbuild-distr -Pmapr41 -Pyarn -Pspark-1.3 -DskipTests

    (для версии MapR 5.x):

    1
    mvn clean package -Pbuild-distr -Pmapr50 -Pyarn -Pspark-1.3 -DskipTests
  5. Это создаст каталог с именем zeppelin-distribution . В этом каталоге будет работающая версия Zeppelin и файл tar. Файл tar представляет собой полную установку Zeppelin. Используй это.
  6. Разархивируйте zeppelin-xxx-incubating-SNAPSHOT.tar.gz где вы хотите запустить сервер Zeppelin. Все локально для этой машины, поэтому нет необходимости иметь сервер Zeppelin на узле кластера MapR.
  7. Конфигурация… при условии, что у вас есть работающий клиент MapR и установка Spark, настраивать практически нечего. В каталоге zeppelin-env.sh.template to zeppelin-env.sh zeppelin-xxx-incubating-SNAPSHOT/conf вам нужно будет скопировать zeppelin-env.sh.template to zeppelin-env.sh
  8. Отредактируйте zeppelin-env.sh … вам нужно экспортировать два элемента.
    а.

    1
    2
    export
    HADOOP_CONF_DIR="/opt/mapr/hadoop/hadoop-x.x.x/etc/hadoop"

    введите правильную версию Hadoop и путь)
    б.

    1
    export ZEPPELIN_JAVA_OPTS="-Dspark.executor.instances=4 -Dspark.executor.memory=2g"

    В каталоге Hadoop conf находится файл yarn-site.xml. Параметры Java Zeppelin устанавливают информацию о вашем развертывании Spark. Эти параметры описаны в документации Spark здесь .

Это должно быть все, что вам нужно сделать в командной строке … чтобы запустить сервер Zeppelin, выполните

1
bin/zeppelin-daemon.sh start

Теперь вам нужно настроить Zeppelin для использования вашего кластера Spark. Направьте ваш браузер на

1
http://:8080

Нажмите на переводчик (вверху страницы) и отредактируйте раздел Spark:

  • мастер == пряжа-клиент
  • Сохранить

Вы также можете настроить свой HiveServer2 на этой странице, если вы его используете. Теперь нажмите на Блокнот (вверху страницы) и выберите учебник.

ЗАМЕТКИ

Знайте номер порта, на котором работает Zeppelin.

  • Если вы находитесь на узле кластера, порт 8080, вероятно, будет конфликтовать с любым количеством служб Hadoop.
  • В каталоге conf (шаги 8 и 9) также есть шаблон zeppelin-site.xml. Скопируйте это и отредактируйте это. номер порта находится сверху.
Ссылка: Сборка Apache Zeppelin для MapR с использованием Spark под YARN от нашего партнера по JCG Пола Кертиса из блога Mapr .