Меня недавно попросили преобразовать несколько сотен изображений в страницы PDF. Мой друг рисует комиксы, а мой брат хотел прочитать их на планшете. Увы, если у вас есть куча файлов с именем примерно так:
‘Jia_01.Jpg’, ‘Jia_02.Jpg’, ‘Jia_09.Jpg’, ‘Jia_10.Jpg’, ‘Jia_11.Jpg’, ‘Jia_101.Jpg’
планшет Android переупорядочит их примерно так:
‘Jia_01.Jpg’, ‘Jia_02.Jpg’, ‘Jia_09.Jpg’, ‘Jia_10.Jpg’, ‘Jia_101.Jpg’, ‘Jia_11.Jpg’
И это сбивало с толку все больше файлов, которые у вас были не в порядке. К сожалению, даже Python сортирует файлы таким образом. Я попытался использовать модуль glob непосредственно на них, а затем отсортировал результат и получил точно такую же проблему. Поэтому первое, что мне нужно было сделать, — это найти какой-то алгоритм сортировки, который мог бы правильно их сортировать. Следует отметить, что Windows 7 может правильно сортировать файлы в своей файловой системе, хотя Python не может.
После небольшого поиска в Google я нашел следующий скрипт в StackOverflow :
import re #---------------------------------------------------------------------- def sorted_nicely( l ): """ Sort the given iterable in the way that humans expect. """ convert = lambda text: int(text) if text.isdigit() else text alphanum_key = lambda key: [ convert(c) for c in re.split('([0-9]+)', key) ] return sorted(l, key = alphanum_key)
Это сработало отлично! Теперь мне просто нужно было найти способ разместить каждую комическую страницу на своей собственной странице PDF. К счастью, библиотека reportlab позволяет сделать это довольно легко. Вам просто нужно перебирать изображения и вставлять их по одной на страницу. Проще взглянуть на код, поэтому давайте сделаем это:
import glob import os import re from reportlab.lib.pagesizes import letter from reportlab.platypus import SimpleDocTemplate, Paragraph, Image, PageBreak from reportlab.lib.units import inch #---------------------------------------------------------------------- def sorted_nicely( l ): """ # http://stackoverflow.com/questions/2669059/how-to-sort-alpha-numeric-set-in-python Sort the given iterable in the way that humans expect. """ convert = lambda text: int(text) if text.isdigit() else text alphanum_key = lambda key: [ convert(c) for c in re.split('([0-9]+)', key) ] return sorted(l, key = alphanum_key) #---------------------------------------------------------------------- def create_comic(fname, front_cover, back_cover, path): """""" filename = os.path.join(path, fname + ".pdf") doc = SimpleDocTemplate(filename,pagesize=letter, rightMargin=72,leftMargin=72, topMargin=72,bottomMargin=18) Story=[] width = 7.5*inch height = 9.5*inch pictures = sorted_nicely(glob.glob(path + "\\%s*" % fname)) Story.append(Image(front_cover, width, height)) Story.append(PageBreak()) x = 0 page_nums = {100:'%s_101-200.pdf', 200:'%s_201-300.pdf', 300:'%s_301-400.pdf', 400:'%s_401-500.pdf', 500:'%s_end.pdf'} for pic in pictures: parts = pic.split("\\") p = parts[-1].split("%s" % fname) page_num = int(p[-1].split(".")[0]) print "page_num => ", page_num im = Image(pic, width, height) Story.append(im) Story.append(PageBreak()) if page_num in page_nums.keys(): print "%s created" % filename doc.build(Story) filename = os.path.join(path, page_nums[page_num] % fname) doc = SimpleDocTemplate(filename, pagesize=letter, rightMargin=72,leftMargin=72, topMargin=72,bottomMargin=18) Story=[] print pic x += 1 Story.append(Image(back_cover, width, height)) doc.build(Story) print "%s created" % filename #---------------------------------------------------------------------- if __name__ == "__main__": path = r"C:\Users\Mike\Desktop\Sam's Comics" front_cover = os.path.join(path, "FrontCover.jpg") back_cover = os.path.join(path, "BackCover2.jpg") create_comic("Jia_", front_cover, back_cover, path)
Давайте разберемся с этим немного. Как обычно, у вас есть некоторые необходимые импорты, необходимые для работы этого кода. Вы заметите, что у нас также есть та функция sorted_nicely, о которой мы говорили ранее, также в этом коде. Основная функция называется create_comic и принимает четыре аргумента: fname, front_cover, back_cover, path. Если вы ранее использовали инструментарий reportlab, то вы узнаете SimpleDocTemplate и список Story, так как они прямо из учебника reportlab.
В любом случае, вы перебираете отсортированные изображения и добавляете изображение в Story вместе с объектом PageBreak. Причина в том, что в цикле есть условие, состоит в том, что я обнаружил, что если я попытаюсь создать PDF со всеми 400+ изображениями, у меня возникнет ошибка памяти. Поэтому я разбил его на серию документов в формате PDF объемом не более 100 страниц. В конце документа вы должны вызвать метод build объекта doc , чтобы фактически создать документ PDF.
Теперь вы знаете, как я закончил писать целую кучу изображений в нескольких документах PDF. Теоретически, вы можете использовать PyPdf, чтобы объединить все полученные PDF-файлы в один PDF-файл, но я не пробовал. Вы можете закончить с другой ошибкой памяти. Я оставлю это как упражнение для читателя.
Исходный код