Учебники

Spark SQL — источники данных

Интерфейс DataFrame позволяет различным источникам данных работать на Spark SQL. Это временная таблица и может работать как обычный СДР. Регистрация DataFrame в виде таблицы позволяет выполнять SQL-запросы к его данным.

В этой главе мы опишем общие методы загрузки и сохранения данных с использованием различных источников данных Spark. После этого мы подробно обсудим конкретные параметры, доступные для встроенных источников данных.

В SparkSQL доступны разные типы источников данных, некоторые из которых перечислены ниже:

Spark SQL может автоматически захватывать схему набора данных JSON и загружать ее в виде DataFrame.

Hive поставляется в комплекте с библиотекой Spark как HiveContext, которая наследуется от SQLContext.

Паркет — это столбчатый формат, поддерживаемый многими системами обработки данных.