В целом, убирание означает очистку всего, что происходит, путем их преобразования. В нашем случае мы увидим, как мы можем преобразовать текст, чтобы получить некоторый результат, который дает нам желательные изменения в данных. На простом уровне речь идет только о преобразовании текста, с которым мы имеем дело.
пример
В приведенном ниже примере мы планируем перетасовать, а затем переставить все буквы предложения, кроме первой и последней, чтобы получить возможные альтернативные слова, которые могут быть сгенерированы как неправильно написанное слово во время написания человеком. Эта перестановка помогает нам в
import random import re def replace(t): inner_word = list(t.group(2)) random.shuffle(inner_word) return t.group(1) + "".join(inner_word) + t.group(3) text = "Hello, You should reach the finish line." print re.sub(r"(\w)(\w+)(\w)", replace, text) print re.sub(r"(\w)(\w+)(\w)", replace, text)
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:
Hlleo, You slouhd raech the fsiinh lnie. Hlleo, You suolhd raceh the fniish line.
Здесь вы можете увидеть, как слова перемешаны, за исключением первых и последних букв. Используя статистический подход к неправильному написанию, мы можем решить, какие слова обычно пишутся неправильно, и предоставить правильное написание для них.