НЛП представляет собой набор инструментов, используемых для получения значимой и полезной информации из источников на естественном языке, таких как веб-страницы и текстовые документы.
Что такое Open NLP?
Apache OpenNLP — это библиотека Java с открытым исходным кодом, которая используется для обработки текста на естественном языке. С помощью этой библиотеки вы можете создать эффективный сервис обработки текста.
OpenNLP предоставляет такие сервисы, как токенизация, сегментация предложений, тегирование части речи, выделение именованных объектов, разбиение на фрагменты, анализ и разрешение сопутствующих ссылок и т. Д.
Особенности OpenNLP
Ниже приведены заметные особенности OpenNLP —
-
Распознавание именованных объектов (NER) — Open NLP поддерживает NER, используя который вы можете извлекать имена местоположений, людей и вещей даже при обработке запросов.
-
Подведение итогов — используя функцию подведения итогов , вы можете суммировать абзацы, статьи, документы или их коллекции в НЛП.
-
Поиск — в OpenNLP заданная строка поиска или ее синонимы могут быть идентифицированы в данном тексте, даже если данное слово изменено или написано с ошибкой.
-
Пометка (POS) — Пометка в НЛП используется для разделения текста на различные грамматические элементы для дальнейшего анализа.
-
Перевод — в НЛП Перевод помогает в переводе с одного языка на другой.
-
Группировка информации — эта опция в НЛП группирует текстовую информацию в содержании документа, как части речи.
-
Генерация естественного языка — используется для генерирования информации из базы данных и автоматизации информационных отчетов, таких как анализ погоды или медицинские отчеты.
-
Анализ обратной связи. Как следует из названия, НЛП собирает различные виды отзывов людей о продуктах, чтобы проанализировать, насколько продукт успешен в завоевании их сердец.
-
Распознавание речи. Хотя анализ человеческой речи затруднен, в НЛП есть некоторые встроенные функции для этого требования.
Распознавание именованных объектов (NER) — Open NLP поддерживает NER, используя который вы можете извлекать имена местоположений, людей и вещей даже при обработке запросов.
Подведение итогов — используя функцию подведения итогов , вы можете суммировать абзацы, статьи, документы или их коллекции в НЛП.
Поиск — в OpenNLP заданная строка поиска или ее синонимы могут быть идентифицированы в данном тексте, даже если данное слово изменено или написано с ошибкой.
Пометка (POS) — Пометка в НЛП используется для разделения текста на различные грамматические элементы для дальнейшего анализа.
Перевод — в НЛП Перевод помогает в переводе с одного языка на другой.
Группировка информации — эта опция в НЛП группирует текстовую информацию в содержании документа, как части речи.
Генерация естественного языка — используется для генерирования информации из базы данных и автоматизации информационных отчетов, таких как анализ погоды или медицинские отчеты.
Анализ обратной связи. Как следует из названия, НЛП собирает различные виды отзывов людей о продуктах, чтобы проанализировать, насколько продукт успешен в завоевании их сердец.
Распознавание речи. Хотя анализ человеческой речи затруднен, в НЛП есть некоторые встроенные функции для этого требования.
Open NLP API
Библиотека Apache OpenNLP предоставляет классы и интерфейсы для выполнения различных задач обработки естественного языка, таких как обнаружение предложений, токенизация, поиск имени, маркировка частей речи, разбиение предложения на части, анализ, сопоставление ссылок и категоризация документов.
В дополнение к этим задачам мы также можем обучать и оценивать наши собственные модели для любой из этих задач.
OpenNLP CLI
В дополнение к библиотеке, OpenNLP также предоставляет интерфейс командной строки (CLI), где мы можем обучать и оценивать модели. Мы обсудим эту тему подробно в последней главе этого урока.
Открытые модели НЛП
Для выполнения различных задач НЛП, OpenNLP предоставляет набор предопределенных моделей. В этот набор входят модели для разных языков.
Скачивание моделей
Вы можете выполнить приведенные ниже шаги, чтобы загрузить предопределенные модели, предоставляемые OpenNLP.
Шаг 1 — Откройте страницу индекса моделей OpenNLP, перейдя по следующей ссылке — http://opennlp.sourceforge.net/models-1.5/ .
Шаг 2 — Посетив данную ссылку, вы увидите список компонентов на разных языках и ссылки для их загрузки. Здесь вы можете получить список всех предопределенных моделей, предоставляемых OpenNLP.
Загрузите все эти модели в папку C: / OpenNLP_models /> , нажав на соответствующие ссылки. Все эти модели зависят от языка, и при их использовании необходимо убедиться, что язык модели соответствует языку входного текста.
В 2010 году OpenNLP вступила в инкубационный период Apache.
В 2011 году был выпущен инкубатор Apache OpenNLP 1.5.2, и в том же году он стал проектом Apache верхнего уровня.
В 2015 году был выпущен OpenNLP 1.6.0.