В предыдущей главе мы видели, как добавить текст в существующий документ PDF. В этой главе мы обсудим, как читать текст из существующего документа PDF.
Извлечение текста из существующего документа PDF
Извлечение текста — одна из основных функций библиотеки PDF-боксов. Вы можете извлечь текст, используя метод getText () класса PDFTextStripper . Этот класс извлекает весь текст из данного документа PDF.
Ниже приведены шаги для извлечения текста из существующего документа PDF.
Шаг 1. Загрузка существующего PDF-документа
Загрузите существующий документ PDF, используя статический метод load () класса PDDocument . Этот метод принимает объект файла в качестве параметра, поскольку это статический метод, который можно вызвать, используя имя класса, как показано ниже.
File file = new File("path of the document") PDDocument document = PDDocument.load(file);
Шаг 2. Создание экземпляра класса PDFTextStripper
Класс PDFTextStripper предоставляет методы для извлечения текста из документа PDF, поэтому создайте экземпляр этого класса, как показано ниже.
PDFTextStripper pdfStripper = new PDFTextStripper();
Шаг 3: Получение текста
Вы можете прочитать / получить содержимое страницы из документа PDF, используя метод getText () класса PDFTextStripper . Для этого метода вам нужно передать объект документа в качестве параметра. Этот метод извлекает текст в заданном документе и возвращает его в форме объекта String.
String text = pdfStripper.getText(document);
Шаг 4: Закрытие документа
Наконец, закройте документ с помощью метода close () класса PDDocument, как показано ниже.
document.close();
пример
Предположим, у нас есть документ PDF с текстом, как показано ниже.
Этот пример демонстрирует, как читать текст из вышеупомянутого документа PDF. Здесь мы создадим программу на Java и загрузим PDF-документ с именем new.pdf , который сохраняется по пути C: / PdfBox_Examples / . Сохраните этот код в файле с именем ReadingText.java .
import java.io.File; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; public class ReadingText { public static void main(String args[]) throws IOException { //Loading an existing document File file = new File("C:/PdfBox_Examples/new.pdf"); PDDocument document = PDDocument.load(file); //Instantiate PDFTextStripper class PDFTextStripper pdfStripper = new PDFTextStripper(); //Retrieving text from PDF document String text = pdfStripper.getText(document); System.out.println(text); //Closing the document document.close(); } }
Скомпилируйте и выполните сохраненный файл Java из командной строки, используя следующие команды.
javac ReadingText.java java ReadingText
После выполнения вышеуказанная программа извлекает текст из данного документа PDF и отображает его, как показано ниже.