В первой главе мы узнали, что такое веб-скребинг. В этой главе давайте посмотрим, как реализовать очистку веб-страниц с помощью Python.
Почему Python для веб-скребинга?
Python — это популярный инструмент для реализации веб-скребков. Язык программирования Python также используется для других полезных проектов, связанных с кибербезопасностью, тестированием на проникновение, а также приложениями для цифровой криминалистики. Используя базовое программирование на Python, очистка веб-страниц может выполняться без использования какого-либо другого стороннего инструмента.
Язык программирования Python набирает огромную популярность, и причины, которые делают Python подходящим для веб-проектов, приведены ниже:
Синтаксис Простота
Python имеет простейшую структуру по сравнению с другими языками программирования. Эта особенность Python облегчает тестирование, и разработчик может больше сосредоточиться на программировании.
Встроенные модули
Еще одна причина использования Python для очистки веб-страниц — это встроенные и внешние полезные библиотеки, которыми он обладает. Мы можем выполнить множество реализаций, связанных с очисткой веб-страниц, используя Python в качестве основы для программирования.
Язык программирования с открытым исходным кодом
Python имеет огромную поддержку сообщества, потому что это язык программирования с открытым исходным кодом.
Широкий спектр применения
Python может использоваться для различных задач программирования — от небольших сценариев оболочки до корпоративных веб-приложений.
Установка Python
Дистрибутив Python доступен для таких платформ, как Windows, MAC и Unix / Linux. Нам нужно загрузить только двоичный код, применимый к нашей платформе для установки Python. Но в случае, если двоичный код для нашей платформы недоступен, у нас должен быть компилятор C, чтобы исходный код мог быть скомпилирован вручную.
Мы можем установить Python на различные платформы следующим образом:
Установка Python в Unix и Linux
Чтобы установить Python на компьютерах с Unix / Linux, вам необходимо выполнить следующие шаги:
Шаг 1 — перейдите по ссылке https://www.python.org/downloads/
Шаг 2 — Загрузите сжатый исходный код, доступный для Unix / Linux по ссылке выше.
Шаг 3 — Извлеките файлы на свой компьютер.
Шаг 4 — Используйте следующие команды для завершения установки —
run ./configure script make make install
Вы можете найти установленный Python в стандартном каталоге / usr / local / bin и его библиотеках в / usr / local / lib / pythonXX , где XX — версия Python.
Установка Python в Windows
Чтобы установить Python на компьютерах с Windows, необходимо выполнить следующие шаги:
Шаг 1 — перейдите по ссылке https://www.python.org/downloads/
Шаг 2. Загрузите файл установщика Windows python-XYZ.msi , где XYZ — это версия, которую нам нужно установить.
Шаг 3. Теперь сохраните файл установщика на локальном компьютере и запустите файл MSI.
Шаг 4 — Наконец, запустите загруженный файл, чтобы вызвать мастер установки Python.
Установка Python на Macintosh
Мы должны использовать Homebrew для установки Python 3 на Mac OS X. Homebrew прост в установке и является отличным установщиком пакетов.
Homebrew также можно установить с помощью следующей команды —
$ ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Для обновления менеджера пакетов мы можем использовать следующую команду —
$ brew update
С помощью следующей команды мы можем установить Python3 на наш компьютер MAC —
$ brew install python3
Настройка пути
Вы можете использовать следующие инструкции для настройки пути в различных средах:
Настройка пути в Unix / Linux
Используйте следующие команды для настройки путей, используя различные командные оболочки —
Для оболочки csh
setenv PATH "$PATH:/usr/local/bin/python".
Для оболочки bash (Linux)
ATH="$PATH:/usr/local/bin/python".
Для оболочки sh или ksh
PATH="$PATH:/usr/local/bin/python".
Настройка пути в Windows
Для установки пути в Windows мы можем использовать путь % path%; C: \ Python в командной строке и затем нажать Enter.
Запуск Python
Мы можем запустить Python любым из следующих трех способов:
Интерактивный переводчик
Операционная система, такая как UNIX и DOS, которая предоставляет интерпретатор командной строки или оболочку, может использоваться для запуска Python.
Мы можем начать кодирование в интерактивном интерпретаторе следующим образом:
Шаг 1 — Введите python в командной строке.
Шаг 2 — Затем мы можем начать кодирование прямо в интерактивном интерпретаторе.
$python # Unix/Linux or python% # Unix/Linux or C:> python # Windows/DOS
Скрипт из командной строки
Мы можем выполнить скрипт Python из командной строки, вызвав интерпретатор. Это можно понять следующим образом —
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
Интегрированная среда развития
Мы также можем запустить Python из среды GUI, если в системе есть приложение с графическим интерфейсом, которое поддерживает Python. Некоторые IDE, которые поддерживают Python на различных платформах, приведены ниже —
IDE для UNIX — UNIX для Python имеет IDLE IDE.
IDE для Windows — Windows имеет PythonWin IDE, которая также имеет графический интерфейс.
IDE для Macintosh — в Macintosh есть IDLE IDE, которую можно загрузить в виде файлов MacBinary или BinHex с основного веб-сайта.