Spider — это класс, который определяет начальный URL для извлечения данных, как переходить по ссылкам на нумерацию страниц и как извлекать и анализировать поля, определенные в items.py . Scrapy предоставляет различные типы пауков, каждый из которых дает определенную цель.
Создайте файл под названием «first_spider.py» в каталоге first_scrapy / spiders, где мы можем указать Scrapy, как найти точные данные, которые мы ищем. Для этого вы должны определить некоторые атрибуты —
-
name — определяет уникальное имя для паука
-
allow_domains — содержит базовые URL для паука для сканирования.
-
start-urls — список URL-адресов, с которых начинает сканировать паук.
-
parse () — это метод, который извлекает и анализирует очищенные данные.
name — определяет уникальное имя для паука
allow_domains — содержит базовые URL для паука для сканирования.
start-urls — список URL-адресов, с которых начинает сканировать паук.
parse () — это метод, который извлекает и анализирует очищенные данные.
Следующий код демонстрирует, как выглядит код паука: