Учебники

TIKA — ссылочный API

Пользователи могут встраивать Tika в свои приложения, используя класс фасадов Tika. У этого есть методы, чтобы исследовать все функциональные возможности Тики. Поскольку это класс фасадов, Tika раскрывает сложность своих функций. В дополнение к этому пользователи могут также использовать различные классы Tika в своих приложениях.

Пользовательское приложение

Тика Класс (фасад)

Это самый выдающийся класс библиотеки Тика, который следует шаблону оформления фасада. Поэтому он абстрагирует все внутренние реализации и предоставляет простые методы для доступа к функциям Tika. В следующей таблице перечислены конструкторы этого класса вместе с их описаниями.

пакет — org.apache.tika

класс — тика

Sr.No. Конструктор и описание
1

Тика ()

Использует конфигурацию по умолчанию и создает класс Tika.

2

Тика (детектор детектор)

Создает фасад Tika, принимая экземпляр детектора в качестве параметра

3

Тика (детектор детектор, парсер парсер)

Создает фасад Tika, принимая экземпляры детектора и анализатора в качестве параметров.

4

Тика (Детектор детектор, Парсер парсер, Переводчик переводчик)

Создает фасад Tika, принимая в качестве параметров детектор, анализатор и экземпляр транслятора.

5

Тика (конфиг TikaConfig)

Создает фасад Tika, принимая объект класса TikaConfig в качестве параметра.

Тика ()

Использует конфигурацию по умолчанию и создает класс Tika.

Тика (детектор детектор)

Создает фасад Tika, принимая экземпляр детектора в качестве параметра

Тика (детектор детектор, парсер парсер)

Создает фасад Tika, принимая экземпляры детектора и анализатора в качестве параметров.

Тика (Детектор детектор, Парсер парсер, Переводчик переводчик)

Создает фасад Tika, принимая в качестве параметров детектор, анализатор и экземпляр транслятора.

Тика (конфиг TikaConfig)

Создает фасад Tika, принимая объект класса TikaConfig в качестве параметра.

Методы и описание

Ниже приведены важные методы класса фасадов Тика —

Sr.No. Методы и описание
1

анализ ToString ( файл файла)

Этот метод и все его варианты анализируют файл, переданный в качестве параметра, и возвращают извлеченное текстовое содержимое в формате String. По умолчанию длина этого строкового параметра ограничена.

2

int getMaxStringLength ()

Возвращает максимальную длину строк, возвращаемых методами parseToString.

3

void setMaxStringLength (int maxStringLength)

Устанавливает максимальную длину строк, возвращаемых методами parseToString.

4

Считывание читателя ( файл файла)

Этот метод и все его варианты анализируют файл, переданный в качестве параметра, и возвращают извлеченное текстовое содержимое в виде объекта java.io.reader.

5

Обнаружение строки (поток InputStream , метаданные метаданных)

Этот метод и все его варианты принимают объект InputStream и объект Metadata в качестве параметров, определяют тип данного документа и возвращают имя типа документа как объект String. Этот метод абстрагирует механизмы обнаружения, используемые Tika.

6

Строковый перевод ( InputStream text, String targetLanguage)

Этот метод и все его варианты принимают объект InputStream и строку, представляющую язык, на который мы хотим, чтобы наш текст был переведен, и переводит данный текст на нужный язык, пытаясь автоматически определить исходный язык.

анализ ToString ( файл файла)

Этот метод и все его варианты анализируют файл, переданный в качестве параметра, и возвращают извлеченное текстовое содержимое в формате String. По умолчанию длина этого строкового параметра ограничена.

int getMaxStringLength ()

Возвращает максимальную длину строк, возвращаемых методами parseToString.

void setMaxStringLength (int maxStringLength)

Устанавливает максимальную длину строк, возвращаемых методами parseToString.

Считывание читателя ( файл файла)

Этот метод и все его варианты анализируют файл, переданный в качестве параметра, и возвращают извлеченное текстовое содержимое в виде объекта java.io.reader.

Обнаружение строки (поток InputStream , метаданные метаданных)

Этот метод и все его варианты принимают объект InputStream и объект Metadata в качестве параметров, определяют тип данного документа и возвращают имя типа документа как объект String. Этот метод абстрагирует механизмы обнаружения, используемые Tika.

Строковый перевод ( InputStream text, String targetLanguage)

Этот метод и все его варианты принимают объект InputStream и строку, представляющую язык, на который мы хотим, чтобы наш текст был переведен, и переводит данный текст на нужный язык, пытаясь автоматически определить исходный язык.

Интерфейс парсера

Это интерфейс, который реализован всеми классами анализатора пакета Tika.

пакет — org.apache.tika.parser

Интерфейс — Парсер

Методы и описание

Ниже приводится важный метод интерфейса Tika Parser.

Sr.No. Методы и описание
1

анализ (поток InputStream, обработчик ContentHandler, метаданные метаданных, контекст ParseContext)

Этот метод анализирует данный документ в последовательность событий XHTML и SAX. После анализа он помещает извлеченное содержимое документа в объект класса ContentHandler, а метаданные — в объект класса Metadata.

анализ (поток InputStream, обработчик ContentHandler, метаданные метаданных, контекст ParseContext)

Этот метод анализирует данный документ в последовательность событий XHTML и SAX. После анализа он помещает извлеченное содержимое документа в объект класса ContentHandler, а метаданные — в объект класса Metadata.

Класс метаданных

Этот класс реализует различные интерфейсы, такие как CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable для поддержки различных моделей данных. В следующих таблицах перечислены конструкторы и методы этого класса вместе с их описаниями.

пакет — org.apache.tika.metadata

класс — Метаданные

Sr.No. Конструктор и описание
1

Метаданные ()

Создает новые пустые метаданные.

Метаданные ()

Создает новые пустые метаданные.

Sr.No. Методы и описание
1

add (свойство property, строковое значение)

Добавляет отображение свойства / значения метаданных в данный документ. Используя эту функцию, мы можем установить значение для свойства.

2

добавить (имя строки, значение строки)

Добавляет отображение свойства / значения метаданных в данный документ. Используя этот метод, мы можем установить новое значение имени для существующих метаданных документа.

3

Строка get (Собственность)

Возвращает значение (если есть) указанного свойства метаданных.

4

Строка получить (имя строки)

Возвращает значение (если есть) заданного имени метаданных.

5

Дата getDate (Свойство собственности)

Возвращает значение свойства метаданных Date.

6

String [] getValues ​​(Свойство собственности)

Возвращает все значения свойства метаданных.

7

String [] getValues ​​(имя строки)

Возвращает все значения заданного имени метаданных.

8

Строка [] names ()

Возвращает все имена элементов метаданных в объекте метаданных.

9

set (свойство собственности, дата дата)

Устанавливает значение даты для данного свойства метаданных

10

set (свойство property, значения String [])

Устанавливает несколько значений для свойства метаданных.

add (свойство property, строковое значение)

Добавляет отображение свойства / значения метаданных в данный документ. Используя эту функцию, мы можем установить значение для свойства.

добавить (имя строки, значение строки)

Добавляет отображение свойства / значения метаданных в данный документ. Используя этот метод, мы можем установить новое значение имени для существующих метаданных документа.

Строка get (Собственность)

Возвращает значение (если есть) указанного свойства метаданных.

Строка получить (имя строки)

Возвращает значение (если есть) заданного имени метаданных.

Дата getDate (Свойство собственности)

Возвращает значение свойства метаданных Date.

String [] getValues ​​(Свойство собственности)

Возвращает все значения свойства метаданных.

String [] getValues ​​(имя строки)

Возвращает все значения заданного имени метаданных.

Строка [] names ()

Возвращает все имена элементов метаданных в объекте метаданных.

set (свойство собственности, дата дата)

Устанавливает значение даты для данного свойства метаданных

set (свойство property, значения String [])

Устанавливает несколько значений для свойства метаданных.

Класс идентификатора языка

Этот класс определяет язык данного контента. В следующих таблицах перечислены конструкторы этого класса вместе с их описаниями.

пакет — org.apache.tika.language

класс — Идентификатор языка

LanguageIdentifier (профиль LanguageProfile)

Создает идентификатор языка. Здесь вы должны передать объект LanguageProfile в качестве параметра.

LanguageIdentifier (Строковый контент)

Этот конструктор может создавать идентификатор языка, передавая строку из текстового содержимого.

Строка getLanguage ()

Возвращает язык, данный текущему объекту LanguageIdentifier.