3) Установка

В этом руководстве мы шаг за шагом проведем вас по установке Apache Hadoop на Linux-систему (Ubuntu). Это 2 части процесса

Часть 1) Скачать и установить Hadoop
Часть 2) Настройка Hadoop

Есть 2 предпосылки

У вас должна быть установлена и запущена Ubuntu
У вас должна быть установлена Java.

Часть 1) Скачать и установить Hadoop

Шаг 1) Добавьте пользователя системы Hadoop с помощью команды ниже

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Введите свой пароль, имя и другие данные.

ПРИМЕЧАНИЕ. Существует вероятность возникновения нижеуказанной ошибки в процессе установки и настройки.

«hduser отсутствует в файле sudoers. Об этом инциденте будет сообщено».

Эта ошибка может быть решена при входе в систему как пользователь root

Выполнить команду

sudo adduser hduser_ sudo

Re-login as hduser_

Шаг 2) Настройте SSH

Для управления узлами в кластере Hadoop требуется доступ по SSH

Сначала переключите пользователя, введите следующую команду

su - hduser_

Эта команда создаст новый ключ.

ssh-keygen -t rsa -P ""

Включите SSH доступ к локальной машине, используя этот ключ.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Теперь проверьте настройку SSH, подключившись к localhost как пользователь ‘hduser’.

ssh localhost

Примечание. Обратите внимание: если вы видите ниже ошибку в ответ на ‘ssh localhost’, есть вероятность, что SSH не доступен в этой системе.

Чтобы решить это —

Очистить SSH с помощью,

sudo apt-get purge openssh-server

Рекомендуется производить чистку перед началом установки

Установите SSH с помощью команды

sudo apt-get install openssh-server

Шаг 3) Следующим шагом является загрузка Hadoop

Выберите Стабильный

Выберите файл tar.gz (не файл с src)

После завершения загрузки перейдите в каталог, содержащий файл tar

Войти,

sudo tar xzf hadoop-2.2.0.tar.gz

Теперь переименуйте hadoop-2.2.0 в hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Часть 2) Настройка Hadoop

Шаг 1) Изменить файл ~ / .bashrc

Добавьте следующие строки в конец файла ~ / .bashrc

#Set HADOOP_HOME
export HADOOP_HOME=<Installation Directory of Hadoop>
#Set JAVA_HOME
export JAVA_HOME=<Installation Directory of Java>
# Add bin/ directory of Hadoop to PATH
export PATH=$PATH:$HADOOP_HOME/bin

Теперь создайте эту конфигурацию среды с помощью команды ниже

. ~/.bashrc

Шаг 2) Конфигурации, связанные с HDFS

Установите JAVA_HOME внутри файла $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

В $ HADOOP_HOME / etc / hadoop / core-site.xml есть два параметра, которые нужно установить:

1. ‘hadoop.tmp.dir’ — Used to specify a directory which will be used by Hadoop to store its data files.

2. ‘fs.default.name’ — This specifies the default file system.

To set these parameters, open core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Copy below line in between tags <configuration></configuration>

<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>Parent directory for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS </name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. </description>
</property>

Перейдите в каталог $ HADOOP_HOME / etc / Hadoop

Теперь создайте каталог, упомянутый в core-site.xml

sudo mkdir -p <Path of Directory used in above setting>

Предоставить разрешения на каталог

sudo chown -R hduser_:Hadoop_ <Path of Directory created in above step>

sudo chmod 750 <Path of Directory created in above step>

Шаг 3) Карта Уменьшить конфигурацию

Прежде чем начать с этими конфигурациями, давайте установим путь HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

И введите

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Далее введите

sudo chmod +x /etc/profile.d/hadoop.sh

Выйдите из терминала и перезапустите снова

Введите echo $ HADOOP_HOME. Чтобы проверить путь

Теперь скопируйте файлы

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Откройте файл mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Добавьте ниже строки настройки между тегами <configuration> и </ configuration>

<property>
<name>mapreduce.jobtracker.address</name>
<value>localhost:54311</value>
<description>MapReduce job tracker runs at this host and port.
</description>
</property>

Откройте файл $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, как показано ниже,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Добавьте ниже строки настройки между тегами <configuration> и </ configuration>

<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.</description>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hduser_/hdfs</value>
</property>

Создайте каталог, указанный в настройках

sudo mkdir -p <Path of Directory used in above setting>

sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ <Path of Directory created in above step>

sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 <Path of Directory created in above step>

sudo chmod 750 /home/hduser_/hdfs

Шаг 4) Перед первым запуском Hadoop отформатируйте HDFS с помощью команды ниже

$HADOOP_HOME/bin/hdfs namenode -format

Шаг 5) Запустите кластер Hadoop с одним узлом, используя следующую команду

$HADOOP_HOME/sbin/start-dfs.sh

Вывод вышеуказанной команды

$HADOOP_HOME/sbin/start-yarn.sh

Используя инструмент / команду jps , убедитесь, что все процессы, связанные с Hadoop, запущены или нет.

Если Hadoop запущен успешно, то в выводе jps должны отображаться NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Шаг 6) Остановка Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh

Часть 1) Скачать и установить Hadoop

Часть 2) Настройка Hadoop

Популярные уроки и статьи

Инициализаторы экземпляра в Java объяснены

AJAX - Краткое руководство

TempDB для производительности