Учебники

OpenNLP — ссылочный API

В этой главе мы обсудим классы и методы, которые мы будем использовать в последующих главах этого урока.

Обнаружение приговора

Класс SentenceModel

Этот класс представляет предопределенную модель, которая используется для обнаружения предложений в заданном необработанном тексте. Этот класс принадлежит пакету opennlp.tools.sentdetect .

Конструктор этого класса принимает объект InputStream файла модели детектора предложений (en-sent.bin).

SentenceDetectorME class

Этот класс принадлежит пакету opennlp.tools.sentdetect и содержит методы для разбиения необработанного текста на предложения. Этот класс использует модель максимальной энтропии для оценки символов конца предложения в строке, чтобы определить, означают ли они конец предложения.

Ниже приведены важные методы этого класса.

S.No Методы и описание
1

sentDetect ()

Этот метод используется для обнаружения предложений в необработанном тексте, переданном ему. Он принимает переменную String в качестве параметра и возвращает массив String, который содержит предложения из заданного необработанного текста.

2

sentPosDetect ()

Этот метод используется для определения позиций предложений в данном тексте. Этот метод принимает строковую переменную, представляющую предложение, и возвращает массив объектов типа Span .

Класс с именем Span пакета opennlp.tools.util используется для хранения начального и конечного целого числа наборов.

3

getSentenceProbabilities ()

Этот метод возвращает вероятности, связанные с самыми последними вызовами метода sentDetect () .

sentDetect ()

Этот метод используется для обнаружения предложений в необработанном тексте, переданном ему. Он принимает переменную String в качестве параметра и возвращает массив String, который содержит предложения из заданного необработанного текста.

sentPosDetect ()

Этот метод используется для определения позиций предложений в данном тексте. Этот метод принимает строковую переменную, представляющую предложение, и возвращает массив объектов типа Span .

Класс с именем Span пакета opennlp.tools.util используется для хранения начального и конечного целого числа наборов.

getSentenceProbabilities ()

Этот метод возвращает вероятности, связанные с самыми последними вызовами метода sentDetect () .

лексемизацию

Класс TokenizerModel

Этот класс представляет предопределенную модель, которая используется для токенизации данного предложения. Этот класс принадлежит пакету opennlp.tools.tokenizer .

Конструктор этого класса принимает объект InputStream файла модели токенизатора (entoken.bin).

Классы

Для выполнения токенизации библиотека OpenNLP предоставляет три основных класса. Все три класса реализуют интерфейс под названием Tokenizer .

S.No Классы и описание
1

SimpleTokenizer

Этот класс маркирует заданный необработанный текст, используя классы символов.

2

WhitespaceTokenizer

Этот класс использует пробелы для токенизации заданного текста.

3

TokenizerME

Этот класс преобразует необработанный текст в отдельные токены. Он использует максимальную энтропию для принятия своих решений.

SimpleTokenizer

Этот класс маркирует заданный необработанный текст, используя классы символов.

WhitespaceTokenizer

Этот класс использует пробелы для токенизации заданного текста.

TokenizerME

Этот класс преобразует необработанный текст в отдельные токены. Он использует максимальную энтропию для принятия своих решений.

Эти классы содержат следующие методы.

S.No Методы и описание
1

токенизировать ()

Этот метод используется для токенизации необработанного текста. Этот метод принимает переменную String в качестве параметра и возвращает массив строк (токенов).

2

sentPosDetect ()

Этот метод используется для получения позиций или диапазонов токенов. Он принимает предложение (или) необработанный текст в виде строки и возвращает массив объектов типа Span .

токенизировать ()

Этот метод используется для токенизации необработанного текста. Этот метод принимает переменную String в качестве параметра и возвращает массив строк (токенов).

sentPosDetect ()

Этот метод используется для получения позиций или диапазонов токенов. Он принимает предложение (или) необработанный текст в виде строки и возвращает массив объектов типа Span .

В дополнение к вышеупомянутым двум методам класс TokenizerME имеет метод getTokenProbabilities () .

S.No Методы и описание
1

getTokenProbabilities ()

Этот метод используется для получения вероятностей, связанных с самыми последними вызовами метода tokenizePos () .

getTokenProbabilities ()

Этот метод используется для получения вероятностей, связанных с самыми последними вызовами метода tokenizePos () .

NameEntityRecognition

Класс TokenNameFinderModel

Этот класс представляет предопределенную модель, которая используется для поиска именованных сущностей в данном предложении. Этот класс принадлежит пакету opennlp.tools.namefind .

Конструктор этого класса принимает объект InputStream файла модели искателя имен (enner-person.bin).

NameFinderME класс

Класс принадлежит пакету opennlp.tools.namefind и содержит методы для выполнения задач NER. Этот класс использует модель максимальной энтропии для поиска именованных объектов в заданном необработанном тексте.

S.No Методы и описание
1

находить()

Этот метод используется для обнаружения имен в необработанном тексте. Он принимает переменную String, представляющую необработанный текст в качестве параметра, и возвращает массив объектов типа Span.

2

Probs ()

Этот метод используется для получения вероятностей последней декодированной последовательности.

находить()

Этот метод используется для обнаружения имен в необработанном тексте. Он принимает переменную String, представляющую необработанный текст в качестве параметра, и возвращает массив объектов типа Span.

Probs ()

Этот метод используется для получения вероятностей последней декодированной последовательности.

Нахождение частей речи

POSModel класс

Этот класс представляет предопределенную модель, которая используется для маркировки частей речи данного предложения. Этот класс принадлежит пакету opennlp.tools.postag .

Конструктор этого класса принимает объект InputStream файла модели pos-tagger (enpos-maxent.bin).

POSTaggerME класс

Этот класс принадлежит пакету opennlp.tools.postag и используется для прогнозирования частей речи данного необработанного текста. Он использует максимальную энтропию для принятия своих решений.

S.No Методы и описание
1

тег()

Этот метод используется для назначения предложения токенов POS-тегов. Этот метод принимает массив токенов (String) в качестве параметра и возвращает теги (массив).

2

getSentenceProbabilities ()

Этот метод используется для получения вероятностей для каждого тега недавно помеченного предложения.

тег()

Этот метод используется для назначения предложения токенов POS-тегов. Этот метод принимает массив токенов (String) в качестве параметра и возвращает теги (массив).

getSentenceProbabilities ()

Этот метод используется для получения вероятностей для каждого тега недавно помеченного предложения.

Разбор предложения

Класс ParserModel

Этот класс представляет предопределенную модель, которая используется для анализа данного предложения. Этот класс принадлежит пакету opennlp.tools.parser .

Конструктор этого класса принимает объект InputStream файла модели анализатора (en-parserchunking.bin).

Parser Factory класс

Этот класс принадлежит пакету opennlp.tools.parser и используется для создания анализаторов.

S.No Методы и описание
1

Создайте()

Это статический метод, и он используется для создания объекта парсера. Этот метод принимает объект Filestream файла модели анализатора.

Создайте()

Это статический метод, и он используется для создания объекта парсера. Этот метод принимает объект Filestream файла модели анализатора.

Класс ParserTool

Этот класс принадлежит пакету opennlp.tools.cmdline.parser и используется для анализа содержимого.

S.No Методы и описание
1

parseLine ()

Этот метод класса ParserTool используется для анализа необработанного текста в OpenNLP. Этот метод принимает —

  • Переменная String, представляющая текст для анализа.
  • Объект парсера.
  • Целое число, представляющее количество обработок, которые должны быть выполнены.

parseLine ()

Этот метод класса ParserTool используется для анализа необработанного текста в OpenNLP. Этот метод принимает —

лязг

Класс ChunkerModel

Этот класс представляет предопределенную модель, которая используется для разделения предложения на более мелкие фрагменты. Этот класс принадлежит пакету opennlp.tools.chunker .

Конструктор этого класса принимает объект InputStream файла модели чанкера (enchunker.bin).

ChunkerME класс

Этот класс принадлежит пакету с именем opennlp.tools.chunker и используется для разделения данного предложения на более мелкие куски.

Кусок ()

Этот метод используется для разделения данного предложения на более мелкие куски. Он принимает в качестве параметров токены предложения и теги P art O f S peech.

Probs ()

Этот метод возвращает вероятности последней декодированной последовательности.