Чтобы запустить своего паука, выполните следующую команду в вашем каталоге first_scrapy —
scrapy crawl first
Где first имя паука, указанное при создании паука.
Как только паук ползет, вы можете увидеть следующий результат —
2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial) 2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ... 2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {} 2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ... 2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ... 2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ... 2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ... 2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened 2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None) 2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None) 2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)
Как видно из выходных данных, для каждого URL-адреса есть строка журнала, в которой (реферер: нет) указано, что URL-адреса являются начальными URL-адресами и не имеют ссылок. Затем вы должны увидеть два новых файла с именами Books.html и Resources.html, которые будут созданы в вашем каталоге first_scrapy .