Учебники

PDFBox — Обзор

Portable Document Format (PDF) — это формат файла, который помогает представлять данные способом, независимым от прикладного программного обеспечения, аппаратного обеспечения и операционных систем.

Каждый файл PDF содержит описание плоского документа с фиксированным макетом, включая текст, шрифты, графику и другую информацию, необходимую для его отображения.

Существует несколько библиотек для создания и управления документами PDF с помощью программ, таких как —

  • Библиотека Adobe PDF — эта библиотека предоставляет API на таких языках, как C ++, .NET и Java, и с ее помощью мы можем редактировать, просматривать печать и извлекать текст из документов PDF.

  • Процессор форматирования объектов — Форматер печати с открытым исходным кодом, управляемый объектами форматирования XSL и независимым форматом вывода. Основной целью вывода является PDF.

  • iText — эта библиотека предоставляет API на таких языках, как Java, C # и другие языки .NET, и с помощью этой библиотеки мы можем создавать документы PDF, RTF и HTML и манипулировать ими.

  • JasperReports — это инструмент создания отчетов Java, который генерирует отчеты в формате PDF, включая Microsoft Excel, RTF, ODT, значения, разделенные запятыми, и файлы XML.

Библиотека Adobe PDF — эта библиотека предоставляет API на таких языках, как C ++, .NET и Java, и с ее помощью мы можем редактировать, просматривать печать и извлекать текст из документов PDF.

Процессор форматирования объектов — Форматер печати с открытым исходным кодом, управляемый объектами форматирования XSL и независимым форматом вывода. Основной целью вывода является PDF.

iText — эта библиотека предоставляет API на таких языках, как Java, C # и другие языки .NET, и с помощью этой библиотеки мы можем создавать документы PDF, RTF и HTML и манипулировать ими.

JasperReports — это инструмент создания отчетов Java, который генерирует отчеты в формате PDF, включая Microsoft Excel, RTF, ODT, значения, разделенные запятыми, и файлы XML.

Что такое PDFBox

Apache PDFBox — это библиотека Java с открытым исходным кодом, которая поддерживает разработку и преобразование документов PDF. Используя эту библиотеку, вы можете разрабатывать Java-программы, которые создают, конвертируют и обрабатывают документы PDF.

В дополнение к этому, PDFBox также содержит утилиту командной строки для выполнения различных операций над PDF с использованием доступного файла Jar.

Особенности PDFBox

Ниже приведены заметные особенности PDFBox —

  • Извлечь текст — Используя PDFBox, вы можете извлекать текст Unicode из файлов PDF.

  • Разделить и объединить — Используя PDFBox, вы можете разделить один файл PDF на несколько файлов и объединить их обратно в один файл.

  • Заполнение форм — Используя PDFBox, вы можете заполнить данные формы в документе.

  • Печать — с помощью PDFBox вы можете распечатать PDF-файл, используя стандартный API печати Java.

  • Сохранить как изображение — Используя PDFBox, вы можете сохранять PDF-файлы в виде файлов изображений, таких как PNG или JPEG.

  • Создание PDF-файлов. С помощью PDFBox вы можете создавать новые PDF-файлы, создавая программы на Java, а также добавлять изображения и шрифты.

  • Подписание. С помощью PDFBox вы можете добавлять цифровые подписи в файлы PDF.

Извлечь текст — Используя PDFBox, вы можете извлекать текст Unicode из файлов PDF.

Разделить и объединить — Используя PDFBox, вы можете разделить один файл PDF на несколько файлов и объединить их обратно в один файл.

Заполнение форм — Используя PDFBox, вы можете заполнить данные формы в документе.

Печать — с помощью PDFBox вы можете распечатать PDF-файл, используя стандартный API печати Java.

Сохранить как изображение — Используя PDFBox, вы можете сохранять PDF-файлы в виде файлов изображений, таких как PNG или JPEG.

Создание PDF-файлов. С помощью PDFBox вы можете создавать новые PDF-файлы, создавая программы на Java, а также добавлять изображения и шрифты.

Подписание. С помощью PDFBox вы можете добавлять цифровые подписи в файлы PDF.

Приложения PDFBox

Ниже приведены приложения PDFBox —

  • Apache Nutch — Apache Nutch — это программное обеспечение для веб-поиска с открытым исходным кодом. Он основан на Apache Lucene, добавляя веб-особенности, такие как сканер, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.

  • Apache Tika — Apache Tika — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

Apache Nutch — Apache Nutch — это программное обеспечение для веб-поиска с открытым исходным кодом. Он основан на Apache Lucene, добавляя веб-особенности, такие как сканер, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.

Apache Tika — Apache Tika — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.

Компоненты PDFBox

Ниже приведены четыре основных компонента PDFBox —

PDFBox — это основная часть PDFBox. Он содержит классы и интерфейсы, связанные с извлечением контента и манипулированием им.

FontBox — содержит классы и интерфейсы, связанные со шрифтом, и с помощью этих классов мы можем изменить шрифт текста документа PDF.

XmpBox — содержит классы и интерфейсы, которые обрабатывают метаданные XMP.

Предпечатная проверка — этот компонент используется для проверки файлов PDF на соответствие стандарту PDF / A-1b.