Объекты предметов являются обычными диктатами Python. Мы можем использовать следующий синтаксис для доступа к атрибутам класса —
>>> item = DmozItem() >>> item['title'] = 'sample title' >>> item['title'] 'sample title'
Добавьте приведенный выше код к следующему примеру —
import scrapy from tutorial.items import DmozItem class MyprojectSpider(scrapy.Spider): name = "project" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): for sel in response.xpath('//ul/li'): item = DmozItem() item['title'] = sel.xpath('a/text()').extract() item['link'] = sel.xpath('a/@href').extract() item['desc'] = sel.xpath('text()').extract() yield item
Выход вышеупомянутого паука будет —