В Apache Spark вы можете загружать свои файлы с помощью sc.addFile (sc — ваш SparkContext по умолчанию) и получать путь к работнику с помощью SparkFiles.get . Таким образом, SparkFiles разрешает пути к файлам, добавляемым через SparkContext.addFile () .
SparkFiles содержат следующие методы класса —
- получить (имя файла)
- getrootdirectory ()
Позвольте нам понять их в деталях.
получить (имя файла)
Он указывает путь к файлу, который добавляется через SparkContext.addFile ().
getrootdirectory ()
Он указывает путь к корневому каталогу, который содержит файл, который добавляется через SparkContext.addFile ().
----------------------------------------sparkfile.py------------------------------------ from pyspark import SparkContext from pyspark import SparkFiles finddistance = "/home/hadoop/examples_pyspark/finddistance.R" finddistancename = "finddistance.R" sc = SparkContext("local", "SparkFile App") sc.addFile(finddistance) print "Absolute Path -> %s" % SparkFiles.get(finddistancename) ----------------------------------------sparkfile.py------------------------------------
Команда — Команда выглядит следующим образом —
$SPARK_HOME/bin/spark-submit sparkfiles.py
Выходные данные — выход для вышеуказанной команды —