Учебники

24) Доступ к интернет-данным

Что такое urllib?

urllib — это модуль Python, который можно использовать для открытия URL-адресов. Он определяет функции и классы, чтобы помочь в действиях URL.

С помощью Python вы также можете получать и получать данные из Интернета, такие как XML, HTML, JSON и т. Д. Вы также можете использовать Python для непосредственной работы с этими данными. В этом уроке мы увидим, как мы можем получать данные из Интернета. Например, здесь мы использовали URL-адрес видео guru99, и мы собираемся получить доступ к этому URL-адресу видео с помощью Python, а также распечатать HTML-файл этого URL-адреса.

В этом уроке мы узнаем

Как открыть URL с помощью Urllib

Перед тем, как запустить код для подключения к интернет-данным, нам нужно импортировать оператор для модуля библиотеки URL или «urllib».

Доступ в Интернет с помощью Python Tutorial: Open, Parse & Read URL

  • Импортировать urllib
  • Определите свою основную функцию
  • Объявите переменную webUrl
  • Затем вызовите функцию urlopen в библиотеке библиотек URL-адресов.
  • URL, который мы открываем, — учебник по guru99 на YouTube
  • Далее мы собираемся напечатать код результата
  • Код результата получается путем вызова функции getcode для созданной нами переменной webUrl
  • Мы собираемся преобразовать это в строку, чтобы ее можно было объединить с нашей строкой «код результата»
  • Это будет обычный HTTP-код «200», указывающий, что http-запрос успешно обработан

Как получить URL-адрес HTML-файла в Python

Вы также можете прочитать файл HTML, используя «функцию чтения» в Python, и когда вы запустите код, файл HTML появится в консоли.

Доступ в Интернет с помощью Python Tutorial: Open, Parse & Read URL

  • Вызовите функцию чтения для переменной webURL
  • Переменная Read позволяет читать содержимое файлов данных.
  • Читать все содержимое URL-адреса в переменную с именем data
  • Запустите код — он напечатает данные в формате HTML

Вот полный код

Пример Python 2

#  
# read the data from the URL and print it
#
import urllib2

def main():
# open a connection to a URL using urllib2
   webUrl = urllib2.urlopen("https://www.youtube.com/user/guru99com")
  
#get the result code and print it
   print "result code: " + str(webUrl.getcode()) 
  
# read the data from the URL and print it
   data = webUrl.read()
   print data
 
if __name__ == "__main__":
  main()

Пример Python 3

#
# read the data from the URL and print it
#
import urllib.request
# open a connection to a URL using urllib
webUrl  = urllib.request.urlopen('https://www.youtube.com/user/guru99com')

#get the result code and print it
print ("result code: " + str(webUrl.getcode()))

# read the data from the URL and print it
data = webUrl.read()
print (data)