Учебники

Python — Корпорация Доступ

Корпора — это группа, представляющая несколько коллекций текстовых документов. Одна коллекция называется корпусом. Одним из таких известных корпусов является Корпус Гутенберга, который содержит около 25 000 бесплатных электронных книг, размещенных по адресу http://www.gutenberg.org/. В приведенном ниже примере мы получаем доступ к именам только тех файлов из корпуса, которые являются простым текстом с именем файла, оканчивающимся на .txt.

from nltk.corpus import gutenberg
fields = gutenberg.fileids()

print(fields)

Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:

[austen-emma.txt', austen-persuasion.txt', austen-sense.txt', bible-kjv.txt', 
blake-poems.txt', bryant-stories.txt', burgess-busterbrown.txt',
carroll-alice.txt', chesterton-ball.txt', chesterton-brown.txt', 
chesterton-thursday.txt', edgeworth-parents.txt', melville-moby_dick.txt',
milton-paradise.txt', shakespeare-caesar.txt', shakespeare-hamlet.txt',
shakespeare-macbeth.txt', whitman-leaves.txt']

Доступ к необработанному тексту

Мы можем получить доступ к необработанному тексту из этих файлов, используя функцию sent_tokenize, которая также доступна в nltk. В приведенном ниже примере мы получаем первые два абзаца текста Blake Poen.

from nltk.tokenize import sent_tokenize
from nltk.corpus import gutenberg

sample = gutenberg.raw("blake-poems.txt")

token = sent_tokenize(sample)

for para in range(2):
    print(token[para])

Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод: