Учебники

Apache Tajo – Введение

Хранилище данных – это реляционная база данных, предназначенная для запросов и анализа, а не для обработки транзакций. Это предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных. Эти данные помогают аналитикам принимать обоснованные решения в организации, но объемы реляционных данных увеличиваются день ото дня.

Чтобы решить эти проблемы, система распределенного хранилища данных совместно использует данные в нескольких хранилищах данных с целью оперативной аналитической обработки (OLAP). Каждое хранилище данных может принадлежать одной или нескольким организациям. Он выполняет балансировку нагрузки и масштабируемость. Метаданные тиражируются и распределяются централизованно.

Apache Tajo – это система распределенного хранилища данных, которая использует распределенную файловую систему Hadoop (HDFS) в качестве уровня хранения и имеет собственный механизм выполнения запросов вместо инфраструктуры MapReduce.

Обзор SQL на Hadoop

Hadoop – это платформа с открытым исходным кодом, которая позволяет хранить и обрабатывать большие данные в распределенной среде. Это очень быстро и мощно. Тем не менее, Hadoop имеет ограниченные возможности запросов, поэтому его производительность может быть улучшена с помощью SQL на Hadoop. Это позволяет пользователям взаимодействовать с Hadoop с помощью простых команд SQL.

Некоторыми примерами приложений SQL на Hadoop являются Hive, Impala, Drill, Presto, Spark, HAWQ и Apache Tajo.

Что такое Apache Tajo

Apache Tajo – это реляционная и распределенная среда обработки данных. Он разработан для анализа задержек и масштабируемых специальных запросов.

  • Тахо поддерживает стандартный SQL и различные форматы данных. Большинство запросов Tajo могут быть выполнены без каких-либо изменений.

  • Tajo обладает отказоустойчивостью благодаря механизму перезапуска для неудачных задач и расширяемому механизму перезаписи запросов.

  • Tajo выполняет необходимые операции ETL (извлечения, преобразования и загрузки) для суммирования больших наборов данных, хранящихся в HDFS. Это альтернатива Hive / Pig.

Тахо поддерживает стандартный SQL и различные форматы данных. Большинство запросов Tajo могут быть выполнены без каких-либо изменений.

Tajo обладает отказоустойчивостью благодаря механизму перезапуска для неудачных задач и расширяемому механизму перезаписи запросов.

Tajo выполняет необходимые операции ETL (извлечения, преобразования и загрузки) для суммирования больших наборов данных, хранящихся в HDFS. Это альтернатива Hive / Pig.

Последняя версия Tajo имеет улучшенную связь с Java-программами и сторонними базами данных, такими как Oracle и PostGreSQL.

Особенности Apache Tajo

Apache Tajo имеет следующие особенности –

  • Превосходная масштабируемость и оптимизированная производительность
  • Низкая задержка
  • Пользовательские функции
  • Структура обработки строк / столбчатых хранилищ.
  • Совместимость с HiveQL и Hive MetaStore
  • Простой поток данных и простота обслуживания.

Преимущества Apache Tajo

Apache Tajo предлагает следующие преимущества:

  • Легко использовать
  • Упрощенная архитектура
  • Оптимизация запросов на основе затрат
  • Векторизованный план выполнения запроса
  • Быстрая доставка
  • Простой механизм ввода-вывода и поддерживает различные типы хранения.
  • Отказоустойчивость

Использовать случаи Apache Tajo

Ниже приведены некоторые примеры использования Apache Tajo:

Хранение данных и анализ

Корейская фирма SK Telecom определила Tajo с объемом данных 1,7 терабайта и обнаружила, что может выполнять запросы с большей скоростью, чем Hive или Impala.

Обнаружение данных

Корейский сервис потоковой передачи музыки Melon использует Tajo для аналитической обработки. Tajo выполняет задания ETL (извлечения-преобразования-загрузки) в 1,5-10 раз быстрее, чем Hive.

Анализ журнала

Bluehole Studio, корейская компания, разработала TERA – фантастическую многопользовательскую онлайн-игру. Компания использует Tajo для анализа игрового журнала и поиска основных причин прерывания качества обслуживания.

Форматы хранения и данных

Apache Tajo поддерживает следующие форматы данных –

  • JSON
  • Текстовый файл (CSV)
  • Паркет
  • Файл последовательности
  • AVRO
  • Буфер протокола
  • Apache Orc

Tajo поддерживает следующие форматы хранения –