Поиск по этому блогу

пятница, 5 февраля 2010 г.

Из pdf в html

Иногда необходимо перебросить текст из pdf-файла в html. В Ubuntu Linux для этого есть утилита pdftohtml, входящая в пакет poppler-utils.

Установим этот пакет:

sudo apt-get install poppler-utils

Для использования утилиты наберите:

pdftohtml pdffile.pdf htmlfile.html

Естественно подставьте наименования нужных файлов.

Для конвертации файлов включая изображения наберите:

pdftohtml -c pdffile.pdf htmlfile.html

Для просмотра полного списка ключей наберите:

man pdftohtml

Мое личное мнение: выходной html иногда довольно коряв, но если использовать для вытягивания текста и изображений, то программка неплохо справляется со своей задачей.

Комментариев нет:

Отправить комментарий