Учебники

Python — Обработка текста Введение

Обработка текста имеет прямое применение к обработке естественного языка, также известной как НЛП. НЛП нацелен на обработку языков, на которых говорят или пишут люди, когда они общаются друг с другом. Это отличается от связи между компьютером и человеком, когда связь происходит с компьютерной программой, написанной человеком, или каким-то жестом человека, например щелчком мыши в некоторой позиции. НЛП пытается понять естественный язык, на котором говорят люди, и классифицировать его, а также анализирует его, если требуется, реагирует на него. Python имеет богатый набор библиотек, которые отвечают потребностям НЛП. Набор инструментов Natural Language Tool Kit (NLTK) представляет собой набор таких библиотек, который обеспечивает функциональные возможности, необходимые для NLP.

Ниже приведены некоторые приложения, которые используют NLP и косвенно NLTK Python.

Суммирование

Много раз нам нужно получить сводку новостной статьи, сюжета фильма или большой истории. Все они написаны на человеческом языке, и без НЛП мы должны полагаться на интерпретацию другого человека и представление нам такого резюме. Но с помощью НЛП мы можем писать программы для использования NLTK и суммировать длинный текст с различными параметрами, такими как, какой процент текста мы хотим получить в конечном результате, выбирая положительные и отрицательные слова для суммирования и т. Д. на такие методы обобщения, чтобы представить новостные идеи.

Голосовые инструменты

Голосовые инструменты, такие как яблоки Siri или Amazon Alexa, используют NLP для понимания безумного взаимодействия с людьми. У них есть большой набор обучающих данных слов, предложений и грамматики для интерпретации вопроса или команды, исходящей от человека, и их обработки. Несмотря на то, что речь идет о голосе, косвенно он также переводится в текст, и результирующий текст в форме голоса проходит через систему НЛП для получения результата.

Извлечение информации

Веб-утилизация — типичный пример извлечения данных из веб-страниц с использованием кода Python. Здесь это может быть не только на основе НЛП, но это действительно связано с обработкой текста. Например, если нам нужно извлечь только заголовки, присутствующие на html-странице, то мы ищем тег h1 в структуре страницы и находим способ извлечь текст только между этими тегами. Для этого нужна программа обработки текста из python.

Фильтрация спама

Спам в электронных письмах может быть идентифицирован и устранен путем анализа текста в строке темы, а также в содержании сообщения. Поскольку спам-сообщения обычно рассылаются многим получателям, даже если их темы и содержание имеют небольшие различия, их можно сопоставить и пометить, чтобы пометить их как спам. Снова требуется использование библиотек NLTK.

Языковой перевод

Компьютеризированный языковой перевод сильно зависит от НЛП. Поскольку в онлайн-платформе используется все больше и больше языков, возникает необходимость автоматизировать перевод с одного человеческого языка на другой. Это будет включать программирование для обработки словарного запаса, грамматики и маркировки контекста языков, участвующих в переводе. Опять же, NLTK используется для удовлетворения таких требований.

Анализ настроений

Чтобы узнать общую реакцию на исполнение фильма, нам, возможно, придется прочитать тысячи сообщений обратной связи от аудитории. Но это также может быть автоматизировано с помощью классификации положительных и отрицательных отзывов посредством анализа слов и предложений. А затем измерять частоту положительных и отрицательных отзывов, чтобы найти общее настроение аудитории. Это очевидно требует анализа человеческого языка, написанного аудиторией, и NLTK интенсивно используется здесь для обработки текста.