Python может читать файлы PDF и распечатывать содержимое после извлечения текста из него. Для этого мы должны сначала установить необходимый модуль PyPDF2 . Ниже приведена команда для установки модуля. Вы должны иметь уже установленный pip в вашей среде Python.
pip install pypdf2
При успешной установке этого модуля мы можем читать файлы PDF, используя методы, доступные в модуле.
import PyPDF2 pdfName = 'path\Tutorialspoint.pdf' read_pdf = PyPDF2.PdfFileReader(pdfName) page = read_pdf.getPage(0) page_content = page.extractText() print page_content
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод:
Tutorials Point originated from the idea that there exists a class of readers who respond better to online content and prefer to learn new skills at their own pace from the comforts of their drawing rooms. The journey commenced with a single tutorial on HTML in 2006 and elated by the response it generated, we worked our way to adding fresh tutorials to our repository which now proudly flaunts a wealth of tutorials and allied articles on topics ranging from programming languages to web designing to academics and much more.
Чтение нескольких страниц
Чтобы прочитать PDF-файл с несколькими страницами и распечатать каждую страницу с номером страницы, мы используем цикл с функцией getPageNumber (). В приведенном ниже примере мы PDF-файл, который имеет две страницы. Содержание напечатано под двумя отдельными заголовками страниц.
import PyPDF2 pdfName = 'Path\Tutorialspoint2.pdf' read_pdf = PyPDF2.PdfFileReader(pdfName) for i in xrange(read_pdf.getNumPages()): page = read_pdf.getPage(i) print 'Page No - ' + str(1+read_pdf.getPageNumber(page)) page_content = page.extractText() print page_content
Когда мы запускаем вышеуказанную программу, мы получаем следующий вывод: