Статьи

Запустите свой собственный паук

Я наткнулся на блог Карлоса Переса, manageability.org, в то время как Гугл для сегодняшнего исследования. У Карлоса был большой список сканеров с открытым исходным кодом , включая JSpider, инструмент, который я использовал для проверки ошибок на веб-сайтах.

JSpider полностью написан на Java и может быть настроен для паутинга, проверки ошибок и загрузки. Конечно, он подчиняется файлам robots.txt ( http://www.robotstxt.org/wc/norobots-rfc.txt ) и дополнительным параметрам, включенным в конфигурацию.

Я думал, что добавленная опция загрузки была хороша, поскольку я использовал отдельное приложение, чтобы отключить целые веб-сайты для автономного использования. Теперь это можно сделать с помощью движка JSpider.

Инструмент имеет плагиновую архитектуру, которая открывает пользователям возможность индивидуальной разработки для расширения JSpider в соответствии с их потребностями (и, возможно, для участия в проекте). JSpider выпущен под лицензией LGPL .

JSpider требует J2SE 1.3+ Runtime и установленного XMLParser (Xerces,…) (поставляется с JDK1.4). Приложение будет работать на любой системе, поддерживающей Java и эти требования.

Существует даже простой пример сайта, который JSpider создал для целей тестирования, как только вы приступите к работе. Кроме того, доступно довольно полное руководство на 120 страниц в формате PDF.