Учебники

OpenNLP — Обзор

НЛП представляет собой набор инструментов, используемых для получения значимой и полезной информации из источников на естественном языке, таких как веб-страницы и текстовые документы.

Что такое Open NLP?

Apache OpenNLP — это библиотека Java с открытым исходным кодом, которая используется для обработки текста на естественном языке. С помощью этой библиотеки вы можете создать эффективный сервис обработки текста.

OpenNLP предоставляет такие сервисы, как токенизация, сегментация предложений, тегирование части речи, выделение именованных объектов, разбиение на фрагменты, анализ и разрешение сопутствующих ссылок и т. Д.

Особенности OpenNLP

Ниже приведены заметные особенности OpenNLP —

  • Распознавание именованных объектов (NER) — Open NLP поддерживает NER, используя который вы можете извлекать имена местоположений, людей и вещей даже при обработке запросов.

  • Подведение итогов — используя функцию подведения итогов , вы можете суммировать абзацы, статьи, документы или их коллекции в НЛП.

  • Поиск — в OpenNLP заданная строка поиска или ее синонимы могут быть идентифицированы в данном тексте, даже если данное слово изменено или написано с ошибкой.

  • Пометка (POS) — Пометка в НЛП используется для разделения текста на различные грамматические элементы для дальнейшего анализа.

  • Перевод — в НЛП Перевод помогает в переводе с одного языка на другой.

  • Группировка информации — эта опция в НЛП группирует текстовую информацию в содержании документа, как части речи.

  • Генерация естественного языка — используется для генерирования информации из базы данных и автоматизации информационных отчетов, таких как анализ погоды или медицинские отчеты.

  • Анализ обратной связи. Как следует из названия, НЛП собирает различные виды отзывов людей о продуктах, чтобы проанализировать, насколько продукт успешен в завоевании их сердец.

  • Распознавание речи. Хотя анализ человеческой речи затруднен, в НЛП есть некоторые встроенные функции для этого требования.

Распознавание именованных объектов (NER) — Open NLP поддерживает NER, используя который вы можете извлекать имена местоположений, людей и вещей даже при обработке запросов.

Подведение итогов — используя функцию подведения итогов , вы можете суммировать абзацы, статьи, документы или их коллекции в НЛП.

Поиск — в OpenNLP заданная строка поиска или ее синонимы могут быть идентифицированы в данном тексте, даже если данное слово изменено или написано с ошибкой.

Пометка (POS) — Пометка в НЛП используется для разделения текста на различные грамматические элементы для дальнейшего анализа.

Перевод — в НЛП Перевод помогает в переводе с одного языка на другой.

Группировка информации — эта опция в НЛП группирует текстовую информацию в содержании документа, как части речи.

Генерация естественного языка — используется для генерирования информации из базы данных и автоматизации информационных отчетов, таких как анализ погоды или медицинские отчеты.

Анализ обратной связи. Как следует из названия, НЛП собирает различные виды отзывов людей о продуктах, чтобы проанализировать, насколько продукт успешен в завоевании их сердец.

Распознавание речи. Хотя анализ человеческой речи затруднен, в НЛП есть некоторые встроенные функции для этого требования.

Open NLP API

Библиотека Apache OpenNLP предоставляет классы и интерфейсы для выполнения различных задач обработки естественного языка, таких как обнаружение предложений, токенизация, поиск имени, маркировка частей речи, разбиение предложения на части, анализ, сопоставление ссылок и категоризация документов.

В дополнение к этим задачам мы также можем обучать и оценивать наши собственные модели для любой из этих задач.

OpenNLP CLI

В дополнение к библиотеке, OpenNLP также предоставляет интерфейс командной строки (CLI), где мы можем обучать и оценивать модели. Мы обсудим эту тему подробно в последней главе этого урока.

OpenNLP CLI

Открытые модели НЛП

Для выполнения различных задач НЛП, OpenNLP предоставляет набор предопределенных моделей. В этот набор входят модели для разных языков.

Скачивание моделей

Вы можете выполнить приведенные ниже шаги, чтобы загрузить предопределенные модели, предоставляемые OpenNLP.

Шаг 1 — Откройте страницу индекса моделей OpenNLP, перейдя по следующей ссылке — http://opennlp.sourceforge.net/models-1.5/ .

Модели OpenNLP

Шаг 2 — Посетив данную ссылку, вы увидите список компонентов на разных языках и ссылки для их загрузки. Здесь вы можете получить список всех предопределенных моделей, предоставляемых OpenNLP.

Предопределенные модели

Загрузите все эти модели в папку C: / OpenNLP_models /> , нажав на соответствующие ссылки. Все эти модели зависят от языка, и при их использовании необходимо убедиться, что язык модели соответствует языку входного текста.

В 2010 году OpenNLP вступила в инкубационный период Apache.

В 2011 году был выпущен инкубатор Apache OpenNLP 1.5.2, и в том же году он стал проектом Apache верхнего уровня.

В 2015 году был выпущен OpenNLP 1.6.0.