В этой главе мы узнаем о применении функций извлечения с помощью PySpark в Agile Data Science.
Обзор Spark
Apache Spark можно определить как среду быстрой обработки в реальном времени. Это делает вычисления для анализа данных в режиме реального времени. Apache Spark представлен как система потоковой обработки в режиме реального времени, а также может выполнять пакетную обработку. Apache Spark поддерживает интерактивные запросы и итерационные алгоритмы.
Spark написан на «языке программирования Scala».
PySpark можно рассматривать как комбинацию Python с Spark. PySpark предлагает оболочку PySpark, которая связывает Python API с ядром Spark и инициализирует контекст Spark. Большинство исследователей данных используют PySpark для отслеживания функций, как обсуждалось в предыдущей главе.
В этом примере мы сосредоточимся на преобразованиях, чтобы построить набор данных с именем count и сохранить его в определенном файле.
text_file = sc.textFile("hdfs://...") counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) counts.saveAsTextFile("hdfs://...")
Используя PySpark, пользователь может работать с RDD на языке программирования Python. Помогает в этом встроенная библиотека, которая охватывает основы документов и компонентов, управляемых данными.