Portable Document Format (PDF) — это формат файла, который помогает представлять данные способом, независимым от прикладного программного обеспечения, аппаратного обеспечения и операционных систем.
Каждый файл PDF содержит описание плоского документа с фиксированным макетом, включая текст, шрифты, графику и другую информацию, необходимую для его отображения.
Существует несколько библиотек для создания и управления документами PDF с помощью программ, таких как —
-
Библиотека Adobe PDF — эта библиотека предоставляет API на таких языках, как C ++, .NET и Java, и с ее помощью мы можем редактировать, просматривать печать и извлекать текст из документов PDF.
-
Процессор форматирования объектов — Форматер печати с открытым исходным кодом, управляемый объектами форматирования XSL и независимым форматом вывода. Основной целью вывода является PDF.
-
iText — эта библиотека предоставляет API на таких языках, как Java, C # и другие языки .NET, и с помощью этой библиотеки мы можем создавать документы PDF, RTF и HTML и манипулировать ими.
-
JasperReports — это инструмент создания отчетов Java, который генерирует отчеты в формате PDF, включая Microsoft Excel, RTF, ODT, значения, разделенные запятыми, и файлы XML.
Библиотека Adobe PDF — эта библиотека предоставляет API на таких языках, как C ++, .NET и Java, и с ее помощью мы можем редактировать, просматривать печать и извлекать текст из документов PDF.
Процессор форматирования объектов — Форматер печати с открытым исходным кодом, управляемый объектами форматирования XSL и независимым форматом вывода. Основной целью вывода является PDF.
iText — эта библиотека предоставляет API на таких языках, как Java, C # и другие языки .NET, и с помощью этой библиотеки мы можем создавать документы PDF, RTF и HTML и манипулировать ими.
JasperReports — это инструмент создания отчетов Java, который генерирует отчеты в формате PDF, включая Microsoft Excel, RTF, ODT, значения, разделенные запятыми, и файлы XML.
Что такое PDFBox
Apache PDFBox — это библиотека Java с открытым исходным кодом, которая поддерживает разработку и преобразование документов PDF. Используя эту библиотеку, вы можете разрабатывать Java-программы, которые создают, конвертируют и обрабатывают документы PDF.
В дополнение к этому, PDFBox также содержит утилиту командной строки для выполнения различных операций над PDF с использованием доступного файла Jar.
Особенности PDFBox
Ниже приведены заметные особенности PDFBox —
-
Извлечь текст — Используя PDFBox, вы можете извлекать текст Unicode из файлов PDF.
-
Разделить и объединить — Используя PDFBox, вы можете разделить один файл PDF на несколько файлов и объединить их обратно в один файл.
-
Заполнение форм — Используя PDFBox, вы можете заполнить данные формы в документе.
-
Печать — с помощью PDFBox вы можете распечатать PDF-файл, используя стандартный API печати Java.
-
Сохранить как изображение — Используя PDFBox, вы можете сохранять PDF-файлы в виде файлов изображений, таких как PNG или JPEG.
-
Создание PDF-файлов. С помощью PDFBox вы можете создавать новые PDF-файлы, создавая программы на Java, а также добавлять изображения и шрифты.
-
Подписание. С помощью PDFBox вы можете добавлять цифровые подписи в файлы PDF.
Извлечь текст — Используя PDFBox, вы можете извлекать текст Unicode из файлов PDF.
Разделить и объединить — Используя PDFBox, вы можете разделить один файл PDF на несколько файлов и объединить их обратно в один файл.
Заполнение форм — Используя PDFBox, вы можете заполнить данные формы в документе.
Печать — с помощью PDFBox вы можете распечатать PDF-файл, используя стандартный API печати Java.
Сохранить как изображение — Используя PDFBox, вы можете сохранять PDF-файлы в виде файлов изображений, таких как PNG или JPEG.
Создание PDF-файлов. С помощью PDFBox вы можете создавать новые PDF-файлы, создавая программы на Java, а также добавлять изображения и шрифты.
Подписание. С помощью PDFBox вы можете добавлять цифровые подписи в файлы PDF.
Приложения PDFBox
Ниже приведены приложения PDFBox —
-
Apache Nutch — Apache Nutch — это программное обеспечение для веб-поиска с открытым исходным кодом. Он основан на Apache Lucene, добавляя веб-особенности, такие как сканер, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.
-
Apache Tika — Apache Tika — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.
Apache Nutch — Apache Nutch — это программное обеспечение для веб-поиска с открытым исходным кодом. Он основан на Apache Lucene, добавляя веб-особенности, такие как сканер, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.
Apache Tika — Apache Tika — это набор инструментов для обнаружения и извлечения метаданных и структурированного текстового содержимого из различных документов с использованием существующих библиотек синтаксического анализатора.
Компоненты PDFBox
Ниже приведены четыре основных компонента PDFBox —
PDFBox — это основная часть PDFBox. Он содержит классы и интерфейсы, связанные с извлечением контента и манипулированием им.
FontBox — содержит классы и интерфейсы, связанные со шрифтом, и с помощью этих классов мы можем изменить шрифт текста документа PDF.
XmpBox — содержит классы и интерфейсы, которые обрабатывают метаданные XMP.
Предпечатная проверка — этот компонент используется для проверки файлов PDF на соответствие стандарту PDF / A-1b.