Хранилище данных — это реляционная база данных, предназначенная для запросов и анализа, а не для обработки транзакций. Это предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных. Эти данные помогают аналитикам принимать обоснованные решения в организации, но объемы реляционных данных увеличиваются день ото дня.
Чтобы решить эти проблемы, система распределенного хранилища данных совместно использует данные в нескольких хранилищах данных с целью оперативной аналитической обработки (OLAP). Каждое хранилище данных может принадлежать одной или нескольким организациям. Он выполняет балансировку нагрузки и масштабируемость. Метаданные тиражируются и распределяются централизованно.
Apache Tajo — это система распределенного хранилища данных, которая использует распределенную файловую систему Hadoop (HDFS) в качестве уровня хранения и имеет собственный механизм выполнения запросов вместо инфраструктуры MapReduce.
Обзор SQL на Hadoop
Hadoop — это платформа с открытым исходным кодом, которая позволяет хранить и обрабатывать большие данные в распределенной среде. Это очень быстро и мощно. Тем не менее, Hadoop имеет ограниченные возможности запросов, поэтому его производительность может быть улучшена с помощью SQL на Hadoop. Это позволяет пользователям взаимодействовать с Hadoop с помощью простых команд SQL.
Некоторыми примерами приложений SQL на Hadoop являются Hive, Impala, Drill, Presto, Spark, HAWQ и Apache Tajo.
Что такое Apache Tajo
Apache Tajo — это реляционная и распределенная среда обработки данных. Он разработан для анализа задержек и масштабируемых специальных запросов.
-
Тахо поддерживает стандартный SQL и различные форматы данных. Большинство запросов Tajo могут быть выполнены без каких-либо изменений.
-
Tajo обладает отказоустойчивостью благодаря механизму перезапуска для неудачных задач и расширяемому механизму перезаписи запросов.
-
Tajo выполняет необходимые операции ETL (извлечения, преобразования и загрузки) для суммирования больших наборов данных, хранящихся в HDFS. Это альтернатива Hive / Pig.
Тахо поддерживает стандартный SQL и различные форматы данных. Большинство запросов Tajo могут быть выполнены без каких-либо изменений.
Tajo обладает отказоустойчивостью благодаря механизму перезапуска для неудачных задач и расширяемому механизму перезаписи запросов.
Tajo выполняет необходимые операции ETL (извлечения, преобразования и загрузки) для суммирования больших наборов данных, хранящихся в HDFS. Это альтернатива Hive / Pig.
Последняя версия Tajo имеет улучшенную связь с Java-программами и сторонними базами данных, такими как Oracle и PostGreSQL.
Особенности Apache Tajo
Apache Tajo имеет следующие особенности —
- Превосходная масштабируемость и оптимизированная производительность
- Низкая задержка
- Пользовательские функции
- Структура обработки строк / столбчатых хранилищ.
- Совместимость с HiveQL и Hive MetaStore
- Простой поток данных и простота обслуживания.
Преимущества Apache Tajo
Apache Tajo предлагает следующие преимущества:
- Легко использовать
- Упрощенная архитектура
- Оптимизация запросов на основе затрат
- Векторизованный план выполнения запроса
- Быстрая доставка
- Простой механизм ввода-вывода и поддерживает различные типы хранения.
- Отказоустойчивость
Использовать случаи Apache Tajo
Ниже приведены некоторые примеры использования Apache Tajo:
Хранение данных и анализ
Корейская фирма SK Telecom определила Tajo с объемом данных 1,7 терабайта и обнаружила, что может выполнять запросы с большей скоростью, чем Hive или Impala.
Обнаружение данных
Корейский сервис потоковой передачи музыки Melon использует Tajo для аналитической обработки. Tajo выполняет задания ETL (извлечения-преобразования-загрузки) в 1,5-10 раз быстрее, чем Hive.
Анализ журнала
Bluehole Studio, корейская компания, разработала TERA — фантастическую многопользовательскую онлайн-игру. Компания использует Tajo для анализа игрового журнала и поиска основных причин прерывания качества обслуживания.
Форматы хранения и данных
Apache Tajo поддерживает следующие форматы данных —
- JSON
- Текстовый файл (CSV)
- Паркет
- Файл последовательности
- AVRO
- Буфер протокола
- Apache Orc
Tajo поддерживает следующие форматы хранения —