Инструмент командной строки Scrapy используется для управления Scrapy, который часто называют «Scrapy tool» . Он включает в себя команды для различных объектов с группой аргументов и опций.
Настройки конфигурации
Scrapy найдет параметры конфигурации в файле scrapy.cfg . Ниже приведены несколько мест —
-
C: \ scrapy (папка проекта) \ scrapy.cfg в системе
-
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) и ~ / .scrapy.cfg ($ HOME) для глобальных настроек
-
Вы можете найти scrapy.cfg в корне проекта.
C: \ scrapy (папка проекта) \ scrapy.cfg в системе
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) и ~ / .scrapy.cfg ($ HOME) для глобальных настроек
Вы можете найти scrapy.cfg в корне проекта.
Scrapy также может быть настроен с использованием следующих переменных среды:
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
По умолчанию структура Scrapy Project
Следующая структура показывает файловую структуру по умолчанию для проекта Scrapy.
scrapy.cfg - Deploy the configuration file project_name/ - Name of the project _init_.py items.py - It is project's items file pipelines.py - It is project's pipelines file settings.py - It is project's settings file spiders - It is the spiders directory _init_.py spider_name.py . . .
Файл scrapy.cfg является корневым каталогом проекта, который включает имя проекта с настройками проекта. Например —
[settings] default = [name of the project].settings [deploy] #url = http://localhost:6800/ project = [name of the project]
Используя Scrapy Tool
Инструмент Scrapy предоставляет некоторые возможности использования и доступные команды следующим образом:
Scrapy X.Y - no active project Usage: scrapy [options] [arguments] Available commands: crawl It puts spider (handle the URL) to work for crawling data fetch It fetches the response from the given URL
Создание проекта
Вы можете использовать следующую команду для создания проекта в Scrapy —
scrapy startproject project_name
Это создаст проект с именем каталог_проекта . Затем перейдите к вновь созданному проекту, используя следующую команду —
cd project_name
Контроллинг проектов
Вы можете контролировать проект и управлять им, используя инструмент Scrapy, а также создать нового паука, используя следующую команду —
scrapy genspider mydomain mydomain.com
Такие команды, как сканирование и т. Д., Должны использоваться внутри проекта Scrapy. В следующем разделе вы узнаете, какие команды должны выполняться внутри проекта Scrapy.
Scrapy содержит несколько встроенных команд, которые можно использовать для вашего проекта. Чтобы увидеть список доступных команд, используйте следующую команду —
scrapy -h
Когда вы выполните следующую команду, Scrapy отобразит список доступных команд, как указано ниже:
-
fetch — выбирает URL с помощью загрузчика Scrapy.
-
runspider — используется для запуска автономного паука без создания проекта.
-
параметры настройки — это определяет значение настройки проекта.
-
shell — это интерактивный модуль очистки по заданному URL.
-
startproject — создает новый проект Scrapy.
-
версия — отображает версию Scrapy.
-
view — получает URL с помощью загрузчика Scrapy и отображает содержимое в браузере.
fetch — выбирает URL с помощью загрузчика Scrapy.
runspider — используется для запуска автономного паука без создания проекта.
параметры настройки — это определяет значение настройки проекта.
shell — это интерактивный модуль очистки по заданному URL.
startproject — создает новый проект Scrapy.
версия — отображает версию Scrapy.
view — получает URL с помощью загрузчика Scrapy и отображает содержимое в браузере.
Вы можете иметь несколько связанных с проектом команд, как указано в списке —
-
crawl — используется для сканирования данных с помощью паука.
-
check — Проверяет элементы, возвращенные командой сканирования.
-
list — отображает список доступных пауков, присутствующих в проекте.
-
редактировать — вы можете редактировать пауков с помощью редактора.
-
parse — анализирует данный URL с пауком
-
bench — используется для запуска быстрого теста производительности (Benchmark сообщает, сколько страниц Scrawling может сканировать в минуту).
crawl — используется для сканирования данных с помощью паука.
check — Проверяет элементы, возвращенные командой сканирования.
list — отображает список доступных пауков, присутствующих в проекте.
редактировать — вы можете редактировать пауков с помощью редактора.
parse — анализирует данный URL с пауком
bench — используется для запуска быстрого теста производительности (Benchmark сообщает, сколько страниц Scrawling может сканировать в минуту).
Пользовательские команды проекта
Вы можете создать собственную команду проекта с параметром COMMANDS_MODULE в проекте Scrapy. Он включает в себя пустую строку по умолчанию в настройке. Вы можете добавить следующую пользовательскую команду —
COMMANDS_MODULE = 'mycmd.commands'
Команды Scrapy можно добавить с помощью раздела scrapy.commands в файле setup.py, который показан ниже:
from setuptools import setup, find_packages setup(name = 'scrapy-module_demo', entry_points = { 'scrapy.commands': [ 'cmd_demo = my_module.commands:CmdDemo', ], }, )
Приведенный выше код добавляет команду cmd_demo в файл setup.py .