Настройка Hadoop на одном узле и нескольких узлах

Мы опишем настройку Hadoop на одном узле и нескольких узлах. Настройка и конфигурация среды Hadoop будут подробно описаны. Сначала вам нужно скачать следующее программное обеспечение (об / мин).

Java JDK RPM
Apache Hadoop 0.20.204.0 об / мин

A) Настройка системы Hadoop с одним узлом

1) Установите JDK в системе Red Hat или CentOS 5+.

$ ./jdk-6u26-linux-x64-rpm.bin.sh

Java установлена и установите JAVA_HOME в / usr / java / default

2) Установите Apache Hadoop 0.20.204.

$ rpm -i hadoop-0.20.204.0-1.i386.rpm

3) Настройте конфигурацию Apache Hadoop и запустите процессы Hadoop.

$ /usr/sbin/hadoop-setup-single-node.sh

Мастер установки проведет вас через список вопросов по настройке Hadoop. Hadoop должен быть запущен после ответа «Y» на все вопросы.

Создайте учетную запись пользователя для HDFS для себя.

$ /usr/sbin/hadoop-create-user.sh -u $USER

B) Настройка Hadoop с несколькими узлами

1) Установите RPM-пакеты JDK и Hadoop 0.20.204.0 на все узлы

2) Создать конфигурацию Hadoop на всех узлах:

$ /usr/sbin/hadoop-setup-conf.sh \
 
  --namenode-url=hdfs://${namenode}:9000/ \
 
  --jobtracker-url=${jobtracker}:9001 \
 
  --conf-dir=/etc/hadoop \
 
  --hdfs-dir=/var/lib/hadoop/hdfs \
 
  --namenode-dir=/var/lib/hadoop/hdfs/namenode \
 
  --mapred-dir=/var/lib/hadoop/mapred \
 
  --datanode-dir=/var/lib/hadoop/hdfs/data \
 
  --log-dir=/var/log/hadoop \
 
  --auto

Где $ {namenode} и $ {jobtracker} следует заменить на имя хоста namenode и jobtracker.

3) Отформатируйте наменоде и настройте макет HDFS по умолчанию.

$ /usr/sbin/hadoop-setup-hdfs.sh

4) Запустите все узлы данных.

$ /etc/init.d/hadoop-datanode start

5) Запустить узел отслеживания заданий.

$ /etc/init.d/hadoop-jobtracker start

6) Запустите узлы отслеживания задач.

$ /etc/init.d/hadoop-tasktracker start

7) Создайте учетную запись пользователя на HDFS для себя.

$ /usr/sbin/hadoop-create-user.sh -u $USER

C) Настройка среды для Hadoop

$ vi ~/.bash_profile

В режиме INSERT установите путь для JAVA_HOME

Экспорт JAVA_HOME

Сохраните файл, нажав esc: wq

Запустите .bash_profile

$ source ~/.bash_profile

Установить путь JAVA_HOME в файле среды Hadoop

$ /etc/hadoop/hadoop-env.sh

D) Конфигурация для Hadoop

Используйте следующее:

конф / ядро-site.xml:

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

конф / HDFS-site.xml:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

конф / mapred-site.xml:

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

E) Команды Hadoop

$ hadoop
$ hadoop namenode –format (Format the namenode, If ask to
answer press ‘Y’)
$ hadoop namenode (Start the namenode)
$ find / -name start-dfs.sh (find the file in directory)
$ cd usr/sbin (Go to respective directory directly)
$ start-dfs.sh
$ start-mapred.sh
 
$ hadoop fs –ls / (Shows the HDFS root folder)
$ hadooop fs –put input/file01 /input/file01 (Copy local input/file01 to
HDFS root /input/file01)

Справка: настройка Hadoop на одном и нескольких узлах от нашего партнера JCG Каушика Пала в блоге TechAlpine — мир технологий .

Настройка Hadoop на одном узле и нескольких узлах

A) Настройка системы Hadoop с одним узлом

B) Настройка Hadoop с несколькими узлами

C) Настройка среды для Hadoop

D) Конфигурация для Hadoop

E) Команды Hadoop

Категории

Последние статьи

Рефакторинг Hudson God Class

Альтернативы синтаксиса Java лямбда

Morphia и MongoDB: развивающиеся структуры документов

OpenShift Express: развертывание приложения Java EE (с поддержкой AS7)

Интеграция jqGrid, REST, AJAX и Spring MVC