Учебники

Scrapy — инструменты командной строки

Инструмент командной строки Scrapy используется для управления Scrapy, который часто называют «Scrapy tool» . Он включает в себя команды для различных объектов с группой аргументов и опций.

Настройки конфигурации

Scrapy найдет параметры конфигурации в файле scrapy.cfg . Ниже приведены несколько мест —

  • C: \ scrapy (папка проекта) \ scrapy.cfg в системе

  • ~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) и ~ / .scrapy.cfg ($ HOME) для глобальных настроек

  • Вы можете найти scrapy.cfg в корне проекта.

C: \ scrapy (папка проекта) \ scrapy.cfg в системе

~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) и ~ / .scrapy.cfg ($ HOME) для глобальных настроек

Вы можете найти scrapy.cfg в корне проекта.

Scrapy также может быть настроен с использованием следующих переменных среды:

  • SCRAPY_SETTINGS_MODULE
  • SCRAPY_PROJECT
  • SCRAPY_PYTHON_SHELL

По умолчанию структура Scrapy Project

Следующая структура показывает файловую структуру по умолчанию для проекта Scrapy.

scrapy.cfg                - Deploy the configuration file
project_name/             - Name of the project
   _init_.py
   items.py               - It is project's items file
   pipelines.py           - It is project's pipelines file
   settings.py            - It is project's settings file
   spiders                - It is the spiders directory
      _init_.py
      spider_name.py
      . . .

Файл scrapy.cfg является корневым каталогом проекта, который включает имя проекта с настройками проекта. Например —

[settings] 
default = [name of the project].settings  

[deploy] 
#url = http://localhost:6800/ 
project = [name of the project] 

Используя Scrapy Tool

Инструмент Scrapy предоставляет некоторые возможности использования и доступные команды следующим образом:

Scrapy X.Y  - no active project 
Usage: 
   scrapy  [options] [arguments] 
Available commands: 
   crawl      It puts spider (handle the URL) to work for crawling data 
   fetch      It fetches the response from the given URL

Создание проекта

Вы можете использовать следующую команду для создания проекта в Scrapy —

scrapy startproject project_name

Это создаст проект с именем каталог_проекта . Затем перейдите к вновь созданному проекту, используя следующую команду —

cd  project_name

Контроллинг проектов

Вы можете контролировать проект и управлять им, используя инструмент Scrapy, а также создать нового паука, используя следующую команду —

scrapy genspider mydomain mydomain.com

Такие команды, как сканирование и т. Д., Должны использоваться внутри проекта Scrapy. В следующем разделе вы узнаете, какие команды должны выполняться внутри проекта Scrapy.

Scrapy содержит несколько встроенных команд, которые можно использовать для вашего проекта. Чтобы увидеть список доступных команд, используйте следующую команду —

scrapy -h

Когда вы выполните следующую команду, Scrapy отобразит список доступных команд, как указано ниже:

  • fetch — выбирает URL с помощью загрузчика Scrapy.

  • runspider — используется для запуска автономного паука без создания проекта.

  • параметры настройки — это определяет значение настройки проекта.

  • shell — это интерактивный модуль очистки по заданному URL.

  • startproject — создает новый проект Scrapy.

  • версия — отображает версию Scrapy.

  • view — получает URL с помощью загрузчика Scrapy и отображает содержимое в браузере.

fetch — выбирает URL с помощью загрузчика Scrapy.

runspider — используется для запуска автономного паука без создания проекта.

параметры настройки — это определяет значение настройки проекта.

shell — это интерактивный модуль очистки по заданному URL.

startproject — создает новый проект Scrapy.

версия — отображает версию Scrapy.

view — получает URL с помощью загрузчика Scrapy и отображает содержимое в браузере.

Вы можете иметь несколько связанных с проектом команд, как указано в списке —

  • crawl — используется для сканирования данных с помощью паука.

  • checkПроверяет элементы, возвращенные командой сканирования.

  • list — отображает список доступных пауков, присутствующих в проекте.

  • редактировать — вы можете редактировать пауков с помощью редактора.

  • parse — анализирует данный URL с пауком

  • bench — используется для запуска быстрого теста производительности (Benchmark сообщает, сколько страниц Scrawling может сканировать в минуту).

crawl — используется для сканирования данных с помощью паука.

checkПроверяет элементы, возвращенные командой сканирования.

list — отображает список доступных пауков, присутствующих в проекте.

редактировать — вы можете редактировать пауков с помощью редактора.

parse — анализирует данный URL с пауком

bench — используется для запуска быстрого теста производительности (Benchmark сообщает, сколько страниц Scrawling может сканировать в минуту).

Пользовательские команды проекта

Вы можете создать собственную команду проекта с параметром COMMANDS_MODULE в проекте Scrapy. Он включает в себя пустую строку по умолчанию в настройке. Вы можете добавить следующую пользовательскую команду —

COMMANDS_MODULE = 'mycmd.commands'

Команды Scrapy можно добавить с помощью раздела scrapy.commands в файле setup.py, который показан ниже:

from setuptools import setup, find_packages  

setup(name = 'scrapy-module_demo', 
   entry_points = { 
      'scrapy.commands': [ 
         'cmd_demo = my_module.commands:CmdDemo', 
      ], 
   }, 
)

Приведенный выше код добавляет команду cmd_demo в файл setup.py .