Аналитика данных — это процесс анализа необработанных данных для сбора соответствующей информации для более эффективного принятия решений. Он в основном используется во многих организациях для принятия деловых решений. Что ж, анализ больших данных включает в себя большое количество данных, и этот процесс довольно сложный, поэтому компании используют разные стратегии.
Например, Facebook является одной из ведущих компаний по управлению данными и крупнейшим хранилищем данных в мире. Данные хранилища Facebook хранятся в Hadoop для крупномасштабных вычислений. Позже, когда объем хранилища данных вырос до петабайт, они решили разработать новую систему с низкой задержкой. В 2012 году члены команды Facebook разработали «Presto» для интерактивной аналитики запросов, которая бы работала быстро даже с петабайтами данных.
Что такое Apache Presto?
Apache Presto — это механизм выполнения распределенных параллельных запросов, оптимизированный для малой задержки и интерактивного анализа запросов. Presto легко выполняет запросы и масштабируется без простоев даже от гигабайтов до петабайтов.
Один запрос Presto может обрабатывать данные из нескольких источников, таких как HDFS, MySQL, Cassandra, Hive и многих других источников данных. Presto построен на Java и легко интегрируется с другими компонентами инфраструктуры данных. Presto является мощным, и его внедряют ведущие компании, такие как Airbnb, DropBox, Groupon, Netflix.
Presto — Особенности
Presto содержит следующие функции —
- Простая и расширяемая архитектура.
- Съемные соединители — Presto поддерживает съемные соединители для предоставления метаданных и данных для запросов.
- Конвейерное выполнение — позволяет избежать ненужных задержек ввода / вывода.
- Пользовательские функции. Аналитики могут создавать пользовательские пользовательские функции для удобной миграции.
- Векторизованная колоночная обработка.
Presto — Преимущества
Вот список преимуществ, которые предлагает Apache Presto —
- Специализированные SQL-операции
- Простота установки и отладки
- Простая абстракция для хранения
- Быстро масштабирует петабайтные данные с низкой задержкой
Presto — Приложения
Presto поддерживает большинство современных промышленных приложений. Давайте посмотрим на некоторые известные приложения.
-
Facebook — Facebook построил Presto для нужд анализа данных. Presto легко масштабирует большую скорость данных.
-
Teradata — Teradata предоставляет комплексные решения для аналитики больших данных и хранилищ данных. Вклад Teradata в Presto позволяет большему количеству компаний выполнять все аналитические задачи.
-
Airbnb — Presto является неотъемлемой частью инфраструктуры данных Airbnb. Что ж, сотни сотрудников ежедневно выполняют запросы с помощью этой технологии.
Facebook — Facebook построил Presto для нужд анализа данных. Presto легко масштабирует большую скорость данных.
Teradata — Teradata предоставляет комплексные решения для аналитики больших данных и хранилищ данных. Вклад Teradata в Presto позволяет большему количеству компаний выполнять все аналитические задачи.
Airbnb — Presto является неотъемлемой частью инфраструктуры данных Airbnb. Что ж, сотни сотрудников ежедневно выполняют запросы с помощью этой технологии.
Почему Престо?
Presto поддерживает стандарт ANSI SQL, что делает его очень простым для аналитиков данных и разработчиков. Хотя он построен на Java, он избегает типичных проблем Java-кода, связанных с выделением памяти и сборкой мусора. Presto имеет архитектуру коннекторов, дружественную Hadoop. Это позволяет легко подключать файловые системы.
Presto работает на нескольких дистрибутивах Hadoop. Кроме того, Presto может обращаться к платформе Hadoop для запроса Cassandra, реляционных баз данных или других хранилищ данных. Эта межплатформенная аналитическая возможность позволяет пользователям Presto извлекать максимальную ценность для бизнеса из гигабайтов в петабайты данных.