Процесс индексирования является одной из основных функций, предоставляемых Lucene. Следующая диаграмма иллюстрирует процесс индексации и использование классов. IndexWriter является наиболее важным и ключевым компонентом процесса индексирования.
Мы добавляем Документ (ы), содержащий Поля (и), в IndexWriter, который анализирует Документ (ы) с помощью Анализатора, а затем создает / открывает / редактирует индексы по мере необходимости и сохраняет / обновляет их в Справочнике . IndexWriter используется для обновления или создания индексов. Он не используется для чтения индексов.
Индексирование классов
Ниже приведен список наиболее часто используемых классов в процессе индексирования.
Этот класс действует как основной компонент, который создает / обновляет индексы в процессе индексирования.
Этот класс представляет место хранения индексов.
Этот класс отвечает за анализ документа и получение токенов / слов из текста, который нужно проиндексировать. Без анализа IndexWriter не может создать индекс.
Этот класс представляет собой виртуальный документ с полями, где поле — это объект, который может содержать содержимое физического документа, его метаданные и т. Д. Анализатор может понимать только Документ.
Это самая низкая единица или начальная точка процесса индексации. Он представляет отношение пары «ключ-значение», в котором ключ используется для идентификации индексируемого значения. Предположим, что поле, используемое для представления содержимого документа, будет иметь ключ в качестве «содержимого», а значение может содержать часть или весь текст или числовое содержимое документа. Lucene может индексировать только текстовое или числовое содержимое.