Учебники

Apache Presto — Обзор

Аналитика данных — это процесс анализа необработанных данных для сбора соответствующей информации для более эффективного принятия решений. Он в основном используется во многих организациях для принятия деловых решений. Что ж, анализ больших данных включает в себя большое количество данных, и этот процесс довольно сложный, поэтому компании используют разные стратегии.

Например, Facebook является одной из ведущих компаний по управлению данными и крупнейшим хранилищем данных в мире. Данные хранилища Facebook хранятся в Hadoop для крупномасштабных вычислений. Позже, когда объем хранилища данных вырос до петабайт, они решили разработать новую систему с низкой задержкой. В 2012 году члены команды Facebook разработали «Presto» для интерактивной аналитики запросов, которая бы работала быстро даже с петабайтами данных.

Что такое Apache Presto?

Apache Presto — это механизм выполнения распределенных параллельных запросов, оптимизированный для малой задержки и интерактивного анализа запросов. Presto легко выполняет запросы и масштабируется без простоев даже от гигабайтов до петабайтов.

Один запрос Presto может обрабатывать данные из нескольких источников, таких как HDFS, MySQL, Cassandra, Hive и многих других источников данных. Presto построен на Java и легко интегрируется с другими компонентами инфраструктуры данных. Presto является мощным, и его внедряют ведущие компании, такие как Airbnb, DropBox, Groupon, Netflix.

Presto — Особенности

Presto содержит следующие функции —

  • Простая и расширяемая архитектура.
  • Съемные соединители — Presto поддерживает съемные соединители для предоставления метаданных и данных для запросов.
  • Конвейерное выполнение — позволяет избежать ненужных задержек ввода / вывода.
  • Пользовательские функции. Аналитики могут создавать пользовательские пользовательские функции для удобной миграции.
  • Векторизованная колоночная обработка.

Presto — Преимущества

Вот список преимуществ, которые предлагает Apache Presto —

  • Специализированные SQL-операции
  • Простота установки и отладки
  • Простая абстракция для хранения
  • Быстро масштабирует петабайтные данные с низкой задержкой

Presto — Приложения

Presto поддерживает большинство современных промышленных приложений. Давайте посмотрим на некоторые известные приложения.

  • Facebook — Facebook построил Presto для нужд анализа данных. Presto легко масштабирует большую скорость данных.

  • Teradata — Teradata предоставляет комплексные решения для аналитики больших данных и хранилищ данных. Вклад Teradata в Presto позволяет большему количеству компаний выполнять все аналитические задачи.

  • Airbnb — Presto является неотъемлемой частью инфраструктуры данных Airbnb. Что ж, сотни сотрудников ежедневно выполняют запросы с помощью этой технологии.

Facebook — Facebook построил Presto для нужд анализа данных. Presto легко масштабирует большую скорость данных.

Teradata — Teradata предоставляет комплексные решения для аналитики больших данных и хранилищ данных. Вклад Teradata в Presto позволяет большему количеству компаний выполнять все аналитические задачи.

Airbnb — Presto является неотъемлемой частью инфраструктуры данных Airbnb. Что ж, сотни сотрудников ежедневно выполняют запросы с помощью этой технологии.

Почему Престо?

Presto поддерживает стандарт ANSI SQL, что делает его очень простым для аналитиков данных и разработчиков. Хотя он построен на Java, он избегает типичных проблем Java-кода, связанных с выделением памяти и сборкой мусора. Presto имеет архитектуру коннекторов, дружественную Hadoop. Это позволяет легко подключать файловые системы.

Presto работает на нескольких дистрибутивах Hadoop. Кроме того, Presto может обращаться к платформе Hadoop для запроса Cassandra, реляционных баз данных или других хранилищ данных. Эта межплатформенная аналитическая возможность позволяет пользователям Presto извлекать максимальную ценность для бизнеса из гигабайтов в петабайты данных.