Учебники

Scrapy — Первый Паук

Spider — это класс, который определяет начальный URL для извлечения данных, как переходить по ссылкам на нумерацию страниц и как извлекать и анализировать поля, определенные в items.py . Scrapy предоставляет различные типы пауков, каждый из которых дает определенную цель.

Создайте файл под названием «first_spider.py» в каталоге first_scrapy / spiders, где мы можем указать Scrapy, как найти точные данные, которые мы ищем. Для этого вы должны определить некоторые атрибуты —

  • name — определяет уникальное имя для паука

  • allow_domains — содержит базовые URL для паука для сканирования.

  • start-urls — список URL-адресов, с которых начинает сканировать паук.

  • parse () — это метод, который извлекает и анализирует очищенные данные.

name — определяет уникальное имя для паука

allow_domains — содержит базовые URL для паука для сканирования.

start-urls — список URL-адресов, с которых начинает сканировать паук.

parse () — это метод, который извлекает и анализирует очищенные данные.

Следующий код демонстрирует, как выглядит код паука: