Учебники

DynamoDB — MapReduce

Amazon Elastic MapReduce (EMR) позволяет вам быстро и эффективно обрабатывать большие данные. EMR запускает Apache Hadoop на экземплярах EC2, но упрощает процесс. Вы используете Apache Hive для запроса карты, чтобы уменьшить потоки заданий через HiveQL , язык запросов, похожий на SQL. Apache Hive служит способом оптимизации запросов и ваших приложений.

Для запуска потока работ можно использовать вкладку EMR консоли управления, интерфейс командной строки EMR, API или SDK. У вас также есть возможность запустить Hive в интерактивном режиме или использовать скрипт.

Операции чтения / записи EMR влияют на потребление пропускной способности, однако в больших запросах он выполняет повторные попытки с защитой алгоритма отката. Кроме того, выполнение EMR одновременно с другими операциями и задачами может привести к регулированию.

Интеграция DynamoDB / EMR не поддерживает двоичные и двоичные атрибуты набора.

DynamoDB / EMR Необходимые условия интеграции

Просмотрите этот контрольный список необходимых элементов перед использованием EMR —

  • Аккаунт AWS
  • Заполненная таблица под той же учетной записью, используемой в операциях EMR
  • Специальная версия Hive с подключением DynamoDB
  • Поддержка подключения DynamoDB
  • Ведро S3 (опционально)
  • Клиент SSH (необязательно)
  • Пара ключей EC2 (необязательно)

Настройка улья

Перед использованием EMR создайте пару ключей для запуска Hive в интерактивном режиме. Пара ключей позволяет подключаться к экземплярам EC2 и основным узлам потоков заданий.

Вы можете выполнить это, выполнив следующие шаги —

  • Войдите в консоль управления и откройте консоль EC2, расположенную по адресу https://console.aws.amazon.com/ec2/.

  • Выберите область в верхней правой части консоли. Убедитесь, что регион соответствует региону DynamoDB.

  • На панели навигации выберите Пары ключей .

  • Выберите Создать пару ключей .

  • В поле Имя пары ключей введите имя и выберите Создать .

  • Загрузите полученный файл закрытого ключа, который использует следующий формат: filename.pem.

Войдите в консоль управления и откройте консоль EC2, расположенную по адресу https://console.aws.amazon.com/ec2/.

Выберите область в верхней правой части консоли. Убедитесь, что регион соответствует региону DynamoDB.

На панели навигации выберите Пары ключей .

Выберите Создать пару ключей .

В поле Имя пары ключей введите имя и выберите Создать .

Загрузите полученный файл закрытого ключа, который использует следующий формат: filename.pem.

Примечание. Вы не можете подключиться к экземплярам EC2 без пары ключей.

Улей кластер

Создайте кластер с поддержкой Hive для запуска Hive. Он создает необходимую среду приложений и инфраструктуры для соединения Hive-DynamoDB.

Вы можете выполнить эту задачу, используя следующие шаги —

  • Получите доступ к консоли EMR.

  • Выберите Создать кластер .

  • На экране создания задайте конфигурацию кластера с описательным именем для кластера, выберите « Да» для защиты от прерываний и установите флажок « Включен для ведения журнала», «Назначение S3» для расположения папки S3 журнала и « Включен» для отладки.

  • На экране «Конфигурация программного обеспечения» убедитесь, что в полях находятся: Amazon для распространения Hadoop, последняя версия для версии AMI, версия Hive по умолчанию для приложений, которые будут установлены, Hive, и версия Pig по умолчанию для приложений, которые будут установлены, Pig.

  • На экране «Конфигурация оборудования» убедитесь, что в полях « Запуск в EC2-Classic для сети» нет значения «Нет предпочтений для зоны доступности EC2», по умолчанию для типа экземпляра Master-Amazon EC2, нет проверки для экземпляров «Спотовый запрос», по умолчанию для экземпляра Core-Amazon EC2. Тип: 2 для счетчика, нет проверки для экземпляров спотового запроса, по умолчанию для типа экземпляра Task-Amazon EC2, 0 для счетчика и без проверки для экземпляров спотового запроса.

Получите доступ к консоли EMR.

Выберите Создать кластер .

На экране создания задайте конфигурацию кластера с описательным именем для кластера, выберите « Да» для защиты от прерываний и установите флажок « Включен для ведения журнала», «Назначение S3» для расположения папки S3 журнала и « Включен» для отладки.

На экране «Конфигурация программного обеспечения» убедитесь, что в полях находятся: Amazon для распространения Hadoop, последняя версия для версии AMI, версия Hive по умолчанию для приложений, которые будут установлены, Hive, и версия Pig по умолчанию для приложений, которые будут установлены, Pig.

На экране «Конфигурация оборудования» убедитесь, что в полях « Запуск в EC2-Classic для сети» нет значения «Нет предпочтений для зоны доступности EC2», по умолчанию для типа экземпляра Master-Amazon EC2, нет проверки для экземпляров «Спотовый запрос», по умолчанию для экземпляра Core-Amazon EC2. Тип: 2 для счетчика, нет проверки для экземпляров спотового запроса, по умолчанию для типа экземпляра Task-Amazon EC2, 0 для счетчика и без проверки для экземпляров спотового запроса.

Обязательно установите ограничение, обеспечивающее достаточную емкость для предотвращения сбоя кластера.

  • На экране «Безопасность и доступ» убедитесь, что поля содержат вашу пару ключей в паре ключей EC2, « Нет других пользователей IAM в доступе пользователя IAM» и « Продолжить без ролей в роли IAM».

  • Просмотрите экран Bootstrap Actions, но не изменяйте его.

  • Просмотрите настройки и выберите Create Cluster, когда закончите.

На экране «Безопасность и доступ» убедитесь, что поля содержат вашу пару ключей в паре ключей EC2, « Нет других пользователей IAM в доступе пользователя IAM» и « Продолжить без ролей в роли IAM».

Просмотрите экран Bootstrap Actions, но не изменяйте его.

Просмотрите настройки и выберите Create Cluster, когда закончите.

Сводная панель появляется в начале кластера.

Активировать сессию SSH

Вам необходим активный сеанс SSH для подключения к главному узлу и выполнения операций CLI. Найдите главный узел, выбрав кластер в консоли EMR. Это перечисляет главный узел как Основное публичное DNS-имя .

Установите PuTTY, если у вас его нет. Затем запустите PuTTYgen и выберите Загрузить . Выберите файл PEM и откройте его. PuTTYgen сообщит вам об успешном импорте. Выберите « Сохранить закрытый ключ» для сохранения в формате закрытого ключа PuTTY (PPK) и выберите « Да» для сохранения без пароля. Затем введите имя для клавиши PuTTY, нажмите « Сохранить» и закройте PuTTYgen.

Используйте PuTTY, чтобы установить соединение с главным узлом, сначала запустив PuTTY. Выберите сессию из списка категорий. Введите hadoop @ DNS в поле Имя хоста. Разверните Connection> SSH в списке категорий и выберите Auth . На экране параметров управления выберите « Поиск файла закрытого ключа» для аутентификации. Затем выберите файл с закрытым ключом и откройте его. Выберите Да для всплывающего окна с предупреждением системы безопасности.

При подключении к главному узлу появляется командная строка Hadoop, что означает, что вы можете начать интерактивный сеанс Hive.

Улей Стол

Hive служит инструментом хранилища данных, позволяющим выполнять запросы к кластерам EMR с использованием HiveQL . Предыдущие настройки дают вам рабочее приглашение. Запускайте команды Hive в интерактивном режиме, просто введя «hive», а затем любые нужные вам команды. Смотрите наш урок Hive для получения дополнительной информации о Hive .