Apache Zeppelin — это веб-блокнот, позволяющий проводить интерактивную аналитику данных. Вы можете создавать красивые управляемые данными, интерактивные и совместные документы с помощью Spark SQL, Scala, Hive, Flink, Kylin и других. Zeppelin обеспечивает быструю разработку рабочих процессов Spark и Hadoop с помощью простых и удобных визуализаций. Код от Zeppelin можно использовать в записных книжках Zeppelin или скомпилировать и упаковать в готовые приложения.
С текущей основной ветки (и кандидата на выпуск) все профили сборки MapR теперь включены в репозиторий Apache Zeppelin . Четыре профиля, mapr3, mapr40, mapr41 и mapr50, создадут Zeppelin с соответствующими зависимостями MapR.
Этот блог содержит инструкции по сборке с профилями MapR. Построение интерпретатора Hive для MapR включено, но зависимости закомментированы в файле Hive pom.xml.
Некоторые предположения
- Кластер с MapR 4.0.x / 5.x и Apache Spark (1.2.x, 1.3.x или 1.4.x), работающий под YARN
- Возможность редактировать пару текстовых файлов
- Приличный браузер
- Машина (узел или ребро) для запуска сервера Zeppelin. Для этого требуется mapr-spark и, по крайней мере, установлен клиент MapR.
- Git клиент, npm и Maven 3.x
Что тебе нужно сделать?
- Убедитесь, что на вашем компьютере установлен хотя бы клиент MapR и Spark. Проверьте это, выполнив
hadoop fs -ls /
и оболочку Spark (например, версия 1.2.1).1/opt/mapr/spark/spark-
1.2
.
1
/bin/spark-shell
- Найдите хороший каталог и запустите
git clone
1https:
//github.com/apache/incubator-zeppelin zeppelin
-
cd zeppelin
- Постройте его (версия MapR 4.0.x):
1
mvn clean
package
-Pbuild-distr -Pmapr40 -Pyarn -Pspark-
1.2
-DskipTests
(для версии MapR 4.1):
1mvn clean
package
-Pbuild-distr -Pmapr41 -Pyarn -Pspark-
1.3
-DskipTests
(для версии MapR 5.x):
1mvn clean
package
-Pbuild-distr -Pmapr50 -Pyarn -Pspark-
1.3
-DskipTests
- Это создаст каталог с именем
zeppelin-distribution
. В этом каталоге будет работающая версия Zeppelin и файл tar. Файл tar представляет собой полную установку Zeppelin. Используй это. - Разархивируйте
zeppelin-xxx-incubating-SNAPSHOT.tar.gz
где вы хотите запустить сервер Zeppelin. Все локально для этой машины, поэтому нет необходимости иметь сервер Zeppelin на узле кластера MapR. - Конфигурация… при условии, что у вас есть работающий клиент MapR и установка Spark, настраивать практически нечего. В каталоге
zeppelin-env.sh.template to zeppelin-env.sh
zeppelin-xxx-incubating-SNAPSHOT/conf
вам нужно будет скопироватьzeppelin-env.sh.template to zeppelin-env.sh
- Отредактируйте
zeppelin-env.sh
… вам нужно экспортировать два элемента.
а.12export
HADOOP_CONF_DIR=
"/opt/mapr/hadoop/hadoop-x.x.x/etc/hadoop"
введите правильную версию Hadoop и путь)
б.1export ZEPPELIN_JAVA_OPTS=
"-Dspark.executor.instances=4 -Dspark.executor.memory=2g"
В каталоге Hadoop conf находится файл yarn-site.xml. Параметры Java Zeppelin устанавливают информацию о вашем развертывании Spark. Эти параметры описаны в документации Spark здесь .
Это должно быть все, что вам нужно сделать в командной строке … чтобы запустить сервер Zeppelin, выполните
1
|
bin/zeppelin-daemon.sh start |
Теперь вам нужно настроить Zeppelin для использования вашего кластера Spark. Направьте ваш браузер на
1
|
http: //:8080 |
Нажмите на переводчик (вверху страницы) и отредактируйте раздел Spark:
- мастер == пряжа-клиент
- Сохранить
Вы также можете настроить свой HiveServer2 на этой странице, если вы его используете. Теперь нажмите на Блокнот (вверху страницы) и выберите учебник.
ЗАМЕТКИ
Знайте номер порта, на котором работает Zeppelin.
- Если вы находитесь на узле кластера, порт 8080, вероятно, будет конфликтовать с любым количеством служб Hadoop.
- В каталоге conf (шаги 8 и 9) также есть шаблон zeppelin-site.xml. Скопируйте это и отредактируйте это. номер порта находится сверху.
Ссылка: | Сборка Apache Zeppelin для MapR с использованием Spark под YARN от нашего партнера по JCG Пола Кертиса из блога Mapr . |