Apache Spark написан на языке программирования Scala. Для поддержки Python с помощью Spark сообщество Apache Spark выпустило инструмент PySpark. Используя PySpark, вы также можете работать с RDD на языке программирования Python. Именно благодаря библиотеке под названием Py4j они могут достичь этого. Это вводное руководство, которое охватывает основы документов, управляемых данными, и объясняет, как обращаться с его различными компонентами и подкомпонентами.
Аудитория
Этот учебник подготовлен для тех специалистов, которые стремятся сделать карьеру в области языка программирования и обработки в реальном времени. Это руководство предназначено для того, чтобы читатели чувствовали себя комфортно при запуске PySpark вместе с его различными модулями и подмодулями.
Предпосылки
Прежде чем приступить к различным концепциям, приведенным в этом руководстве, предполагается, что читатели уже знают о том, что такое язык программирования и структура. В дополнение к этому, это будет очень полезно, если читатели хорошо знакомы с Apache Spark, Apache Hadoop, языком программирования Scala, распределенной файловой системой Hadoop (HDFS) и Python.