Учебники

Python — Text Munging

В целом, убирание означает очистку всего, что происходит, путем их преобразования. В нашем случае мы увидим, как мы можем преобразовать текст, чтобы получить некоторый результат, который дает нам желательные изменения в данных. На простом уровне речь идет только о преобразовании текста, с которым мы имеем дело.

пример

В приведенном ниже примере мы планируем перетасовать, а затем переставить все буквы предложения, кроме первой и последней, чтобы получить возможные альтернативные слова, которые могут быть сгенерированы как неправильно написанное слово во время написания человеком. Эта перестановка помогает нам в

import random

import re

def replace(t):
    inner_word = list(t.group(2))
    random.shuffle(inner_word)
    return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)

print re.sub(r"(\w)(\w+)(\w)", replace, text)

Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:

Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.

Здесь вы можете увидеть, как слова перемешаны, за исключением первых и последних букв. Используя статистический подход к неправильному написанию, мы можем решить, какие слова обычно пишутся неправильно, и предоставить правильное написание для них.