Apache Tajo — это инфраструктура распределенного хранилища данных с открытым исходным кодом для Hadoop. Первоначально Tajo был основан Gruter, инфраструктурной компанией, базирующейся на Hadoop, в Южной Корее. Позже, эксперты из Intel, Etsy, NASA, Cloudera, Hortonworks также внесли свой вклад в проект. Тахо относится к страусу на корейском языке. В марте 2014 года Тахо был предоставлен проект Apache с открытым исходным кодом верхнего уровня. В этом руководстве будут рассмотрены основы Tajo и, в дальнейшем, объяснены настройка кластера, оболочка Tajo, SQL-запросы, интеграция с другими технологиями больших данных и, наконец, в заключение приведены некоторые примеры.