Лучший способ сохранить очищенные данные — использовать экспорт каналов, который обеспечивает правильное хранение данных с использованием нескольких форматов сериализации. JSON, JSON lines, CSV, XML — форматы, которые легко поддерживаются в форматах сериализации. Данные могут быть сохранены с помощью следующей команды —
scrapy crawl dmoz -o data.json
Эта команда создаст файл data.json, содержащий очищенные данные в JSON. Этот метод подходит для небольшого количества данных. Если необходимо обработать большой объем данных, мы можем использовать Item Pipeline. Как и файл data.json, зарезервированный файл создается при создании проекта в tutorial / pipelines.py .