Стоп-слова — это английские слова, которые не придают особого значения предложению. Их можно смело игнорировать, не жертвуя смыслом предложения. Например, такие слова, как, он, имеют и т. Д. Такие слова уже зафиксированы это в корпусе под названием корпус. Сначала мы загружаем его в нашу среду Python.
import nltk nltk.download('stopwords')
Будет загружен файл с английскими стоп-словами.
Проверка стоп-слов
from nltk.corpus import stopwords stopwords.words('english') print stopwords.words() [620:680]
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:
[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them', u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be', u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing', u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until', u'while', u'of', u'at']
Различные языки, кроме английского, которые имеют эти стоп-слова, как показано ниже.
from nltk.corpus import stopwords print stopwords.fileids()
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:
[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish', u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian', u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian', u'spanish', u'swedish', u'turkish']
пример
Мы используем приведенный ниже пример, чтобы показать, как стоп-слова удаляются из списка слов.
from nltk.corpus import stopwords en_stops = set(stopwords.words('english')) all_words = ['There', 'is', 'a', 'tree','near','the','river'] for word in all_words: if word not in en_stops: print(word)
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод: