Учебники

Веб-сервисы Amazon — Elastic MapReduce

Amazon Elastic MapReduce (EMR) — это веб-сервис, который предоставляет управляемую среду для запуска сред обработки данных, таких как Apache Hadoop, Apache Spark и Presto, простым, экономичным и безопасным способом.

Он используется для анализа данных, веб-индексации, хранения данных, финансового анализа, научного моделирования и т. Д.

Как настроить Amazon EMR?

Чтобы настроить Amazon EMR, выполните следующие действия.

Шаг 1. Войдите в учетную запись AWS и выберите Amazon EMR на консоли управления.

Шаг 2 — Создание корзины Amazon S3 для журналов кластера и выходных данных. (Процедура подробно описана в разделе Amazon S3)

Шаг 3 — Запустите Amazon EMR кластер.

Ниже приведены шаги для создания кластера и запуска его в EMR.

  • Используйте эту ссылку, чтобы открыть консоль Amazon EMR — https://console.aws.amazon.com/elasticmapreduce/home

  • Выберите «Создать кластер» и укажите необходимые сведения на странице «Конфигурация кластера».

Используйте эту ссылку, чтобы открыть консоль Amazon EMR — https://console.aws.amazon.com/elasticmapreduce/home

Выберите «Создать кластер» и укажите необходимые сведения на странице «Конфигурация кластера».

Конфигурация кластера

  • Оставьте параметры раздела Теги по умолчанию и продолжайте.

  • В разделе «Конфигурация программного обеспечения» настройте параметры по умолчанию.

Оставьте параметры раздела Теги по умолчанию и продолжайте.

В разделе «Конфигурация программного обеспечения» настройте параметры по умолчанию.

искра

  • В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS, установленные по умолчанию. EMRFS — это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные в Amazon S3.

В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS, установленные по умолчанию. EMRFS — это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные в Amazon S3.

Шифрование на стороне сервера

  • В разделе «Конфигурация оборудования» выберите m3.xlarge в поле «Тип экземпляра EC2» и оставьте другие настройки по умолчанию. Нажмите кнопку Далее.

В разделе «Конфигурация оборудования» выберите m3.xlarge в поле «Тип экземпляра EC2» и оставьте другие настройки по умолчанию. Нажмите кнопку Далее.

Конфигурация оборудования

  • В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле пары ключей EC2 и оставьте другие настройки по умолчанию.

  • В разделе «Действия Bootstrap» оставьте поля, установленные по умолчанию, и нажмите кнопку «Добавить». Действия начальной загрузки — это сценарии, которые выполняются во время установки до запуска Hadoop на каждом узле кластера.

  • В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.

  • Нажмите кнопку Создать кластер, и откроется страница Сведения о кластере. Здесь мы должны запустить скрипт Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.

В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле пары ключей EC2 и оставьте другие настройки по умолчанию.

В разделе «Действия Bootstrap» оставьте поля, установленные по умолчанию, и нажмите кнопку «Добавить». Действия начальной загрузки — это сценарии, которые выполняются во время установки до запуска Hadoop на каждом узле кластера.

В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.

Нажмите кнопку Создать кластер, и откроется страница Сведения о кластере. Здесь мы должны запустить скрипт Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.

Шаг 4 — Запустите скрипт Hive, выполнив следующие шаги.

  • Откройте консоль Amazon EMR и выберите нужный кластер.

  • Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку Добавить шаг.

  • Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку Добавить.

Откройте консоль Amazon EMR и выберите нужный кластер.

Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку Добавить шаг.

Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку Добавить.

Потоковая программа

  • Чтобы просмотреть выходные данные скрипта Hive, выполните следующие действия:

    • Откройте консоль Amazon S3 и выберите сегмент S3, используемый для выходных данных.

    • Выберите выходную папку.

    • Запрос записывает результаты в отдельную папку. Выберите os_requests .

    • Вывод сохраняется в текстовом файле. Этот файл можно скачать.

Чтобы просмотреть выходные данные скрипта Hive, выполните следующие действия:

Откройте консоль Amazon S3 и выберите сегмент S3, используемый для выходных данных.

Выберите выходную папку.

Запрос записывает результаты в отдельную папку. Выберите os_requests .

Вывод сохраняется в текстовом файле. Этот файл можно скачать.

Преимущества Amazon EMR

Ниже приведены преимущества Amazon EMR —

Простота в использовании — Amazon EMR прост в использовании, то есть он прост в настройке кластера, конфигурации Hadoop, подготовке узлов и т. Д.

Надежность. Надежность в том смысле, что она повторяет неудачные задачи и автоматически заменяет неэффективные экземпляры.

Elastic — Amazon EMR позволяет вычислять большое количество экземпляров для обработки данных в любом масштабе. Это легко увеличивает или уменьшает количество экземпляров.

Безопасный — он автоматически настраивает параметры брандмауэра Amazon EC2, контролирует сетевой доступ к экземплярам, ​​запускает кластеры в Amazon VPC и т. Д.

Гибкость — это позволяет полный контроль над кластерами и корневой доступ к каждому экземпляру. Это также позволяет устанавливать дополнительные приложения и настраивать ваш кластер в соответствии с требованиями.

Экономически эффективный — его цены легко оценить. Он взимается ежечасно за каждый использованный экземпляр.