Учебники

Scrapy – Scraped Data

Лучший способ сохранить очищенные данные – использовать экспорт каналов, который обеспечивает правильное хранение данных с использованием нескольких форматов сериализации. JSON, JSON lines, CSV, XML – форматы, которые легко поддерживаются в форматах сериализации. Данные могут быть сохранены с помощью следующей команды –

scrapy crawl dmoz -o data.json

Эта команда создаст файл data.json, содержащий очищенные данные в JSON. Этот метод подходит для небольшого количества данных. Если необходимо обработать большой объем данных, мы можем использовать Item Pipeline. Как и файл data.json, зарезервированный файл создается при создании проекта в tutorial / pipelines.py .