Apache Spark написан на языке программирования Scala. Для поддержки Python с помощью Spark сообщество Apache Spark выпустило инструмент PySpark. Используя PySpark, вы также можете работать с RDD на языке программирования Python. Именно благодаря библиотеке под названием Py4j они могут достичь этого. Это вводное руководство, которое охватывает основы документов, управляемых данными, и объясняет, как обращаться с его различными компонентами и подкомпонентами.