Извлечение URL достигается из текстового файла с помощью регулярного выражения. Выражение выбирает текст везде, где он соответствует шаблону. Для этой цели используется только модуль re.
пример
Мы можем взять входной файл, содержащий несколько URL-адресов, и обработать его с помощью следующей программы для извлечения URL-адресов. Функция findall () используется для поиска всех экземпляров, соответствующих регулярному выражению.
Inout File
Показан входной файл ниже. Который содержит тео URL.
Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next you can visit a good e-learning site like - https://www.tutorialspoint.com to learn further on a variety of subjects.
Теперь, когда мы берем указанный выше входной файл и обрабатываем его через следующую программу, мы получаем требуемый вывод, который дает только URL-адреса, извлеченные из файла.
import re with open("path\url_example.txt") as file: for line in file: urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line) print(urls)
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод: