Amazon Elastic MapReduce (EMR) позволяет вам быстро и эффективно обрабатывать большие данные. EMR запускает Apache Hadoop на экземплярах EC2, но упрощает процесс. Вы используете Apache Hive для запроса карты, чтобы уменьшить потоки заданий через HiveQL , язык запросов, похожий на SQL. Apache Hive служит способом оптимизации запросов и ваших приложений.
Для запуска потока работ можно использовать вкладку EMR консоли управления, интерфейс командной строки EMR, API или SDK. У вас также есть возможность запустить Hive в интерактивном режиме или использовать скрипт.
Операции чтения / записи EMR влияют на потребление пропускной способности, однако в больших запросах он выполняет повторные попытки с защитой алгоритма отката. Кроме того, выполнение EMR одновременно с другими операциями и задачами может привести к регулированию.
Интеграция DynamoDB / EMR не поддерживает двоичные и двоичные атрибуты набора.
DynamoDB / EMR Необходимые условия интеграции
Просмотрите этот контрольный список необходимых элементов перед использованием EMR —
- Аккаунт AWS
- Заполненная таблица под той же учетной записью, используемой в операциях EMR
- Специальная версия Hive с подключением DynamoDB
- Поддержка подключения DynamoDB
- Ведро S3 (опционально)
- Клиент SSH (необязательно)
- Пара ключей EC2 (необязательно)
Настройка улья
Перед использованием EMR создайте пару ключей для запуска Hive в интерактивном режиме. Пара ключей позволяет подключаться к экземплярам EC2 и основным узлам потоков заданий.
Вы можете выполнить это, выполнив следующие шаги —
-
Войдите в консоль управления и откройте консоль EC2, расположенную по адресу https://console.aws.amazon.com/ec2/.
-
Выберите область в верхней правой части консоли. Убедитесь, что регион соответствует региону DynamoDB.
-
На панели навигации выберите Пары ключей .
-
Выберите Создать пару ключей .
-
В поле Имя пары ключей введите имя и выберите Создать .
-
Загрузите полученный файл закрытого ключа, который использует следующий формат: filename.pem.
Войдите в консоль управления и откройте консоль EC2, расположенную по адресу https://console.aws.amazon.com/ec2/.
Выберите область в верхней правой части консоли. Убедитесь, что регион соответствует региону DynamoDB.
На панели навигации выберите Пары ключей .
Выберите Создать пару ключей .
В поле Имя пары ключей введите имя и выберите Создать .
Загрузите полученный файл закрытого ключа, который использует следующий формат: filename.pem.
Примечание. Вы не можете подключиться к экземплярам EC2 без пары ключей.
Улей кластер
Создайте кластер с поддержкой Hive для запуска Hive. Он создает необходимую среду приложений и инфраструктуры для соединения Hive-DynamoDB.
Вы можете выполнить эту задачу, используя следующие шаги —
-
Получите доступ к консоли EMR.
-
Выберите Создать кластер .
-
На экране создания задайте конфигурацию кластера с описательным именем для кластера, выберите « Да» для защиты от прерываний и установите флажок « Включен для ведения журнала», «Назначение S3» для расположения папки S3 журнала и « Включен» для отладки.
-
На экране «Конфигурация программного обеспечения» убедитесь, что в полях находятся: Amazon для распространения Hadoop, последняя версия для версии AMI, версия Hive по умолчанию для приложений, которые будут установлены, Hive, и версия Pig по умолчанию для приложений, которые будут установлены, Pig.
-
На экране «Конфигурация оборудования» убедитесь, что в полях « Запуск в EC2-Classic для сети» нет значения «Нет предпочтений для зоны доступности EC2», по умолчанию для типа экземпляра Master-Amazon EC2, нет проверки для экземпляров «Спотовый запрос», по умолчанию для экземпляра Core-Amazon EC2. Тип: 2 для счетчика, нет проверки для экземпляров спотового запроса, по умолчанию для типа экземпляра Task-Amazon EC2, 0 для счетчика и без проверки для экземпляров спотового запроса.
Получите доступ к консоли EMR.
Выберите Создать кластер .
На экране создания задайте конфигурацию кластера с описательным именем для кластера, выберите « Да» для защиты от прерываний и установите флажок « Включен для ведения журнала», «Назначение S3» для расположения папки S3 журнала и « Включен» для отладки.
На экране «Конфигурация программного обеспечения» убедитесь, что в полях находятся: Amazon для распространения Hadoop, последняя версия для версии AMI, версия Hive по умолчанию для приложений, которые будут установлены, Hive, и версия Pig по умолчанию для приложений, которые будут установлены, Pig.
На экране «Конфигурация оборудования» убедитесь, что в полях « Запуск в EC2-Classic для сети» нет значения «Нет предпочтений для зоны доступности EC2», по умолчанию для типа экземпляра Master-Amazon EC2, нет проверки для экземпляров «Спотовый запрос», по умолчанию для экземпляра Core-Amazon EC2. Тип: 2 для счетчика, нет проверки для экземпляров спотового запроса, по умолчанию для типа экземпляра Task-Amazon EC2, 0 для счетчика и без проверки для экземпляров спотового запроса.
Обязательно установите ограничение, обеспечивающее достаточную емкость для предотвращения сбоя кластера.
-
На экране «Безопасность и доступ» убедитесь, что поля содержат вашу пару ключей в паре ключей EC2, « Нет других пользователей IAM в доступе пользователя IAM» и « Продолжить без ролей в роли IAM».
-
Просмотрите экран Bootstrap Actions, но не изменяйте его.
-
Просмотрите настройки и выберите Create Cluster, когда закончите.
На экране «Безопасность и доступ» убедитесь, что поля содержат вашу пару ключей в паре ключей EC2, « Нет других пользователей IAM в доступе пользователя IAM» и « Продолжить без ролей в роли IAM».
Просмотрите экран Bootstrap Actions, но не изменяйте его.
Просмотрите настройки и выберите Create Cluster, когда закончите.
Сводная панель появляется в начале кластера.
Активировать сессию SSH
Вам необходим активный сеанс SSH для подключения к главному узлу и выполнения операций CLI. Найдите главный узел, выбрав кластер в консоли EMR. Это перечисляет главный узел как Основное публичное DNS-имя .
Установите PuTTY, если у вас его нет. Затем запустите PuTTYgen и выберите Загрузить . Выберите файл PEM и откройте его. PuTTYgen сообщит вам об успешном импорте. Выберите « Сохранить закрытый ключ» для сохранения в формате закрытого ключа PuTTY (PPK) и выберите « Да» для сохранения без пароля. Затем введите имя для клавиши PuTTY, нажмите « Сохранить» и закройте PuTTYgen.
Используйте PuTTY, чтобы установить соединение с главным узлом, сначала запустив PuTTY. Выберите сессию из списка категорий. Введите hadoop @ DNS в поле Имя хоста. Разверните Connection> SSH в списке категорий и выберите Auth . На экране параметров управления выберите « Поиск файла закрытого ключа» для аутентификации. Затем выберите файл с закрытым ключом и откройте его. Выберите Да для всплывающего окна с предупреждением системы безопасности.
При подключении к главному узлу появляется командная строка Hadoop, что означает, что вы можете начать интерактивный сеанс Hive.
Улей Стол
Hive служит инструментом хранилища данных, позволяющим выполнять запросы к кластерам EMR с использованием HiveQL . Предыдущие настройки дают вам рабочее приглашение. Запускайте команды Hive в интерактивном режиме, просто введя «hive», а затем любые нужные вам команды. Смотрите наш урок Hive для получения дополнительной информации о Hive .