Учебники

Питон — биграммы

Некоторые английские слова встречаются вместе чаще. Например, «Небесный кайф», «сделай или умри», лучшая производительность, сильный дождь и т. Д. Итак, в текстовом документе нам может понадобиться идентифицировать такую ​​пару слов, которые помогут в анализе настроений. Во-первых, нам нужно генерировать такие пары слов из существующего предложения, поддерживать их текущие последовательности. Такие пары называются биграммы. Python имеет функцию bigram как часть библиотеки NLTK, которая помогает нам генерировать эти пары.

пример

import nltk

word_data = "The best performance can bring in sky high success."
nltk_tokens = nltk.word_tokenize(word_data)  	

print(list(nltk.bigrams(nltk_tokens)))

Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:

[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'), 
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]

Этот результат может быть использован в статистических выводах о частоте таких пар в данном тексте. Это будет соответствовать общему настроению описаний, представленных в основной части текста.