Учебники

PySpark — SparkFiles

В Apache Spark вы можете загружать свои файлы с помощью sc.addFile (sc — ваш SparkContext по умолчанию) и получать путь к работнику с помощью SparkFiles.get . Таким образом, SparkFiles разрешает пути к файлам, добавляемым через SparkContext.addFile () .

SparkFiles содержат следующие методы класса —

  • получить (имя файла)
  • getrootdirectory ()

Позвольте нам понять их в деталях.

получить (имя файла)

Он указывает путь к файлу, который добавляется через SparkContext.addFile ().

getrootdirectory ()

Он указывает путь к корневому каталогу, который содержит файл, который добавляется через SparkContext.addFile ().

----------------------------------------sparkfile.py------------------------------------
from pyspark import SparkContext
from pyspark import SparkFiles
finddistance = "/home/hadoop/examples_pyspark/finddistance.R"
finddistancename = "finddistance.R"
sc = SparkContext("local", "SparkFile App")
sc.addFile(finddistance)
print "Absolute Path -> %s" % SparkFiles.get(finddistancename)
----------------------------------------sparkfile.py------------------------------------

Команда — Команда выглядит следующим образом —

$SPARK_HOME/bin/spark-submit sparkfiles.py

Выходные данные — выход для вышеуказанной команды —