Apache Tajo - Введение

Хранилище данных — это реляционная база данных, предназначенная для запросов и анализа, а не для обработки транзакций. Это предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных. Эти данные помогают аналитикам принимать обоснованные решения в организации, но объемы реляционных данных увеличиваются день ото дня.

Чтобы решить эти проблемы, система распределенного хранилища данных совместно использует данные в нескольких хранилищах данных с целью оперативной аналитической обработки (OLAP). Каждое хранилище данных может принадлежать одной или нескольким организациям. Он выполняет балансировку нагрузки и масштабируемость. Метаданные тиражируются и распределяются централизованно.

Apache Tajo — это система распределенного хранилища данных, которая использует распределенную файловую систему Hadoop (HDFS) в качестве уровня хранения и имеет собственный механизм выполнения запросов вместо инфраструктуры MapReduce.

Обзор SQL на Hadoop

Hadoop — это платформа с открытым исходным кодом, которая позволяет хранить и обрабатывать большие данные в распределенной среде. Это очень быстро и мощно. Тем не менее, Hadoop имеет ограниченные возможности запросов, поэтому его производительность может быть улучшена с помощью SQL на Hadoop. Это позволяет пользователям взаимодействовать с Hadoop с помощью простых команд SQL.

Некоторыми примерами приложений SQL на Hadoop являются Hive, Impala, Drill, Presto, Spark, HAWQ и Apache Tajo.

Что такое Apache Tajo

Apache Tajo — это реляционная и распределенная среда обработки данных. Он разработан для анализа задержек и масштабируемых специальных запросов.

Тахо поддерживает стандартный SQL и различные форматы данных. Большинство запросов Tajo могут быть выполнены без каких-либо изменений.
Tajo обладает отказоустойчивостью благодаря механизму перезапуска для неудачных задач и расширяемому механизму перезаписи запросов.
Tajo выполняет необходимые операции ETL (извлечения, преобразования и загрузки) для суммирования больших наборов данных, хранящихся в HDFS. Это альтернатива Hive / Pig.

Тахо поддерживает стандартный SQL и различные форматы данных. Большинство запросов Tajo могут быть выполнены без каких-либо изменений.

Tajo обладает отказоустойчивостью благодаря механизму перезапуска для неудачных задач и расширяемому механизму перезаписи запросов.

Tajo выполняет необходимые операции ETL (извлечения, преобразования и загрузки) для суммирования больших наборов данных, хранящихся в HDFS. Это альтернатива Hive / Pig.

Последняя версия Tajo имеет улучшенную связь с Java-программами и сторонними базами данных, такими как Oracle и PostGreSQL.

Особенности Apache Tajo

Apache Tajo имеет следующие особенности —

Превосходная масштабируемость и оптимизированная производительность
Низкая задержка
Пользовательские функции
Структура обработки строк / столбчатых хранилищ.
Совместимость с HiveQL и Hive MetaStore
Простой поток данных и простота обслуживания.

Преимущества Apache Tajo

Apache Tajo предлагает следующие преимущества:

Легко использовать
Упрощенная архитектура
Оптимизация запросов на основе затрат
Векторизованный план выполнения запроса
Быстрая доставка
Простой механизм ввода-вывода и поддерживает различные типы хранения.
Отказоустойчивость

Использовать случаи Apache Tajo

Ниже приведены некоторые примеры использования Apache Tajo:

Хранение данных и анализ

Корейская фирма SK Telecom определила Tajo с объемом данных 1,7 терабайта и обнаружила, что может выполнять запросы с большей скоростью, чем Hive или Impala.

Обнаружение данных

Корейский сервис потоковой передачи музыки Melon использует Tajo для аналитической обработки. Tajo выполняет задания ETL (извлечения-преобразования-загрузки) в 1,5-10 раз быстрее, чем Hive.

Анализ журнала

Bluehole Studio, корейская компания, разработала TERA — фантастическую многопользовательскую онлайн-игру. Компания использует Tajo для анализа игрового журнала и поиска основных причин прерывания качества обслуживания.

Форматы хранения и данных

Apache Tajo поддерживает следующие форматы данных —

JSON
Текстовый файл (CSV)
Паркет
Файл последовательности
AVRO
Буфер протокола
Apache Orc

Tajo поддерживает следующие форматы хранения —

Apache Tajo — Введение

Обзор SQL на Hadoop

Что такое Apache Tajo

Особенности Apache Tajo

Преимущества Apache Tajo

Использовать случаи Apache Tajo

Хранение данных и анализ

Обнаружение данных

Анализ журнала

Форматы хранения и данных

Популярные уроки и статьи

Инициализаторы экземпляра в Java объяснены

AJAX - Краткое руководство

TempDB для производительности