Amazon Elastic MapReduce (EMR) — это веб-сервис, который предоставляет управляемую среду для запуска сред обработки данных, таких как Apache Hadoop, Apache Spark и Presto, простым, экономичным и безопасным способом.
Он используется для анализа данных, веб-индексации, хранения данных, финансового анализа, научного моделирования и т. Д.
Как настроить Amazon EMR?
Чтобы настроить Amazon EMR, выполните следующие действия.
Шаг 1. Войдите в учетную запись AWS и выберите Amazon EMR на консоли управления.
Шаг 2 — Создание корзины Amazon S3 для журналов кластера и выходных данных. (Процедура подробно описана в разделе Amazon S3)
Шаг 3 — Запустите Amazon EMR кластер.
Ниже приведены шаги для создания кластера и запуска его в EMR.
-
Используйте эту ссылку, чтобы открыть консоль Amazon EMR — https://console.aws.amazon.com/elasticmapreduce/home
-
Выберите «Создать кластер» и укажите необходимые сведения на странице «Конфигурация кластера».
Используйте эту ссылку, чтобы открыть консоль Amazon EMR — https://console.aws.amazon.com/elasticmapreduce/home
Выберите «Создать кластер» и укажите необходимые сведения на странице «Конфигурация кластера».
-
Оставьте параметры раздела Теги по умолчанию и продолжайте.
-
В разделе «Конфигурация программного обеспечения» настройте параметры по умолчанию.
Оставьте параметры раздела Теги по умолчанию и продолжайте.
В разделе «Конфигурация программного обеспечения» настройте параметры по умолчанию.
-
В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS, установленные по умолчанию. EMRFS — это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные в Amazon S3.
В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS, установленные по умолчанию. EMRFS — это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные в Amazon S3.
-
В разделе «Конфигурация оборудования» выберите m3.xlarge в поле «Тип экземпляра EC2» и оставьте другие настройки по умолчанию. Нажмите кнопку Далее.
В разделе «Конфигурация оборудования» выберите m3.xlarge в поле «Тип экземпляра EC2» и оставьте другие настройки по умолчанию. Нажмите кнопку Далее.
-
В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле пары ключей EC2 и оставьте другие настройки по умолчанию.
-
В разделе «Действия Bootstrap» оставьте поля, установленные по умолчанию, и нажмите кнопку «Добавить». Действия начальной загрузки — это сценарии, которые выполняются во время установки до запуска Hadoop на каждом узле кластера.
-
В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.
-
Нажмите кнопку Создать кластер, и откроется страница Сведения о кластере. Здесь мы должны запустить скрипт Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.
В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле пары ключей EC2 и оставьте другие настройки по умолчанию.
В разделе «Действия Bootstrap» оставьте поля, установленные по умолчанию, и нажмите кнопку «Добавить». Действия начальной загрузки — это сценарии, которые выполняются во время установки до запуска Hadoop на каждом узле кластера.
В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.
Нажмите кнопку Создать кластер, и откроется страница Сведения о кластере. Здесь мы должны запустить скрипт Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.
Шаг 4 — Запустите скрипт Hive, выполнив следующие шаги.
-
Откройте консоль Amazon EMR и выберите нужный кластер.
-
Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку Добавить шаг.
-
Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку Добавить.
Откройте консоль Amazon EMR и выберите нужный кластер.
Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку Добавить шаг.
Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку Добавить.
-
Чтобы просмотреть выходные данные скрипта Hive, выполните следующие действия:
-
Откройте консоль Amazon S3 и выберите сегмент S3, используемый для выходных данных.
-
Выберите выходную папку.
-
Запрос записывает результаты в отдельную папку. Выберите os_requests .
-
Вывод сохраняется в текстовом файле. Этот файл можно скачать.
-
Чтобы просмотреть выходные данные скрипта Hive, выполните следующие действия:
Откройте консоль Amazon S3 и выберите сегмент S3, используемый для выходных данных.
Выберите выходную папку.
Запрос записывает результаты в отдельную папку. Выберите os_requests .
Вывод сохраняется в текстовом файле. Этот файл можно скачать.
Преимущества Amazon EMR
Ниже приведены преимущества Amazon EMR —
Простота в использовании — Amazon EMR прост в использовании, то есть он прост в настройке кластера, конфигурации Hadoop, подготовке узлов и т. Д.
Надежность. Надежность в том смысле, что она повторяет неудачные задачи и автоматически заменяет неэффективные экземпляры.
Elastic — Amazon EMR позволяет вычислять большое количество экземпляров для обработки данных в любом масштабе. Это легко увеличивает или уменьшает количество экземпляров.
Безопасный — он автоматически настраивает параметры брандмауэра Amazon EC2, контролирует сетевой доступ к экземплярам, запускает кластеры в Amazon VPC и т. Д.
Гибкость — это позволяет полный контроль над кластерами и корневой доступ к каждому экземпляру. Это также позволяет устанавливать дополнительные приложения и настраивать ваш кластер в соответствии с требованиями.
Экономически эффективный — его цены легко оценить. Он взимается ежечасно за каждый использованный экземпляр.