OpenNLP - ссылочный API

В этой главе мы обсудим классы и методы, которые мы будем использовать в последующих главах этого урока.

Обнаружение приговора

Класс SentenceModel

Этот класс представляет предопределенную модель, которая используется для обнаружения предложений в заданном необработанном тексте. Этот класс принадлежит пакету opennlp.tools.sentdetect .

Конструктор этого класса принимает объект InputStream файла модели детектора предложений (en-sent.bin).

SentenceDetectorME class

Этот класс принадлежит пакету opennlp.tools.sentdetect и содержит методы для разбиения необработанного текста на предложения. Этот класс использует модель максимальной энтропии для оценки символов конца предложения в строке, чтобы определить, означают ли они конец предложения.

Ниже приведены важные методы этого класса.

S.No	Методы и описание
1	sentDetect () Этот метод используется для обнаружения предложений в необработанном тексте, переданном ему. Он принимает переменную String в качестве параметра и возвращает массив String, который содержит предложения из заданного необработанного текста.
2	sentPosDetect () Этот метод используется для определения позиций предложений в данном тексте. Этот метод принимает строковую переменную, представляющую предложение, и возвращает массив объектов типа Span . Класс с именем Span пакета opennlp.tools.util используется для хранения начального и конечного целого числа наборов.
3	getSentenceProbabilities () Этот метод возвращает вероятности, связанные с самыми последними вызовами метода sentDetect () .

S.No

Методы и описание

sentDetect ()

Этот метод используется для обнаружения предложений в необработанном тексте, переданном ему. Он принимает переменную String в качестве параметра и возвращает массив String, который содержит предложения из заданного необработанного текста.

sentPosDetect ()

Этот метод используется для определения позиций предложений в данном тексте. Этот метод принимает строковую переменную, представляющую предложение, и возвращает массив объектов типа Span .

Класс с именем Span пакета opennlp.tools.util используется для хранения начального и конечного целого числа наборов.

getSentenceProbabilities ()

Этот метод возвращает вероятности, связанные с самыми последними вызовами метода sentDetect () .

sentDetect ()

sentPosDetect ()

getSentenceProbabilities ()

Этот метод возвращает вероятности, связанные с самыми последними вызовами метода sentDetect () .

лексемизацию

Класс TokenizerModel

Этот класс представляет предопределенную модель, которая используется для токенизации данного предложения. Этот класс принадлежит пакету opennlp.tools.tokenizer .

Конструктор этого класса принимает объект InputStream файла модели токенизатора (entoken.bin).

Классы

Для выполнения токенизации библиотека OpenNLP предоставляет три основных класса. Все три класса реализуют интерфейс под названием Tokenizer .

S.No	Классы и описание
1	SimpleTokenizer Этот класс маркирует заданный необработанный текст, используя классы символов.
2	WhitespaceTokenizer Этот класс использует пробелы для токенизации заданного текста.
3	TokenizerME Этот класс преобразует необработанный текст в отдельные токены. Он использует максимальную энтропию для принятия своих решений.

S.No

Классы и описание

SimpleTokenizer

Этот класс маркирует заданный необработанный текст, используя классы символов.

WhitespaceTokenizer

Этот класс использует пробелы для токенизации заданного текста.

TokenizerME

Этот класс преобразует необработанный текст в отдельные токены. Он использует максимальную энтропию для принятия своих решений.

SimpleTokenizer

Этот класс маркирует заданный необработанный текст, используя классы символов.

WhitespaceTokenizer

Этот класс использует пробелы для токенизации заданного текста.

TokenizerME

Эти классы содержат следующие методы.

S.No	Методы и описание
1	токенизировать () Этот метод используется для токенизации необработанного текста. Этот метод принимает переменную String в качестве параметра и возвращает массив строк (токенов).
2	sentPosDetect () Этот метод используется для получения позиций или диапазонов токенов. Он принимает предложение (или) необработанный текст в виде строки и возвращает массив объектов типа Span .

S.No

Методы и описание

токенизировать ()

Этот метод используется для токенизации необработанного текста. Этот метод принимает переменную String в качестве параметра и возвращает массив строк (токенов).

sentPosDetect ()

Этот метод используется для получения позиций или диапазонов токенов. Он принимает предложение (или) необработанный текст в виде строки и возвращает массив объектов типа Span .

токенизировать ()

sentPosDetect ()

В дополнение к вышеупомянутым двум методам класс TokenizerME имеет метод getTokenProbabilities () .

S.No	Методы и описание
1	getTokenProbabilities () Этот метод используется для получения вероятностей, связанных с самыми последними вызовами метода tokenizePos () .

getTokenProbabilities ()

Этот метод используется для получения вероятностей, связанных с самыми последними вызовами метода tokenizePos () .

NameEntityRecognition

Класс TokenNameFinderModel

Этот класс представляет предопределенную модель, которая используется для поиска именованных сущностей в данном предложении. Этот класс принадлежит пакету opennlp.tools.namefind .

Конструктор этого класса принимает объект InputStream файла модели искателя имен (enner-person.bin).

NameFinderME класс

Класс принадлежит пакету opennlp.tools.namefind и содержит методы для выполнения задач NER. Этот класс использует модель максимальной энтропии для поиска именованных объектов в заданном необработанном тексте.

S.No	Методы и описание
1	находить() Этот метод используется для обнаружения имен в необработанном тексте. Он принимает переменную String, представляющую необработанный текст в качестве параметра, и возвращает массив объектов типа Span.
2	Probs () Этот метод используется для получения вероятностей последней декодированной последовательности.

S.No

Методы и описание

находить()

Этот метод используется для обнаружения имен в необработанном тексте. Он принимает переменную String, представляющую необработанный текст в качестве параметра, и возвращает массив объектов типа Span.

Probs ()

Этот метод используется для получения вероятностей последней декодированной последовательности.

находить()

Probs ()

Этот метод используется для получения вероятностей последней декодированной последовательности.

Нахождение частей речи

POSModel класс

Этот класс представляет предопределенную модель, которая используется для маркировки частей речи данного предложения. Этот класс принадлежит пакету opennlp.tools.postag .

Конструктор этого класса принимает объект InputStream файла модели pos-tagger (enpos-maxent.bin).

POSTaggerME класс

Этот класс принадлежит пакету opennlp.tools.postag и используется для прогнозирования частей речи данного необработанного текста. Он использует максимальную энтропию для принятия своих решений.

S.No	Методы и описание
1	тег() Этот метод используется для назначения предложения токенов POS-тегов. Этот метод принимает массив токенов (String) в качестве параметра и возвращает теги (массив).
2	getSentenceProbabilities () Этот метод используется для получения вероятностей для каждого тега недавно помеченного предложения.

S.No

Методы и описание

тег()

Этот метод используется для назначения предложения токенов POS-тегов. Этот метод принимает массив токенов (String) в качестве параметра и возвращает теги (массив).

getSentenceProbabilities ()

Этот метод используется для получения вероятностей для каждого тега недавно помеченного предложения.

тег()

getSentenceProbabilities ()

Этот метод используется для получения вероятностей для каждого тега недавно помеченного предложения.

Разбор предложения

Класс ParserModel

Этот класс представляет предопределенную модель, которая используется для анализа данного предложения. Этот класс принадлежит пакету opennlp.tools.parser .

Конструктор этого класса принимает объект InputStream файла модели анализатора (en-parserchunking.bin).

Parser Factory класс

Этот класс принадлежит пакету opennlp.tools.parser и используется для создания анализаторов.

S.No	Методы и описание
1	Создайте() Это статический метод, и он используется для создания объекта парсера. Этот метод принимает объект Filestream файла модели анализатора.

Создайте()

Это статический метод, и он используется для создания объекта парсера. Этот метод принимает объект Filestream файла модели анализатора.

Класс ParserTool

Этот класс принадлежит пакету opennlp.tools.cmdline.parser и используется для анализа содержимого.

S.No	Методы и описание
1	parseLine () Этот метод класса ParserTool используется для анализа необработанного текста в OpenNLP. Этот метод принимает — Переменная String, представляющая текст для анализа. Объект парсера. Целое число, представляющее количество обработок, которые должны быть выполнены.

parseLine ()

Этот метод класса ParserTool используется для анализа необработанного текста в OpenNLP. Этот метод принимает —

лязг

Класс ChunkerModel

Этот класс представляет предопределенную модель, которая используется для разделения предложения на более мелкие фрагменты. Этот класс принадлежит пакету opennlp.tools.chunker .

Конструктор этого класса принимает объект InputStream файла модели чанкера (enchunker.bin).

ChunkerME класс

Этот класс принадлежит пакету с именем opennlp.tools.chunker и используется для разделения данного предложения на более мелкие куски.

Кусок ()

Этот метод используется для разделения данного предложения на более мелкие куски. Он принимает в качестве параметров токены предложения и теги P art O f S peech.

Probs ()

Этот метод возвращает вероятности последней декодированной последовательности.

OpenNLP — ссылочный API

Обнаружение приговора

Класс SentenceModel

SentenceDetectorME class

лексемизацию

Класс TokenizerModel

Классы

NameEntityRecognition

Класс TokenNameFinderModel

NameFinderME класс

Нахождение частей речи

POSModel класс

POSTaggerME класс

Разбор предложения

Класс ParserModel

Parser Factory класс

Класс ParserTool

лязг

Класс ChunkerModel

ChunkerME класс

Популярные уроки и статьи

Инициализаторы экземпляра в Java объяснены

AJAX - Краткое руководство

TempDB для производительности