Иногда необходимо перебросить текст из pdf-файла в html. В Ubuntu Linux для этого есть утилита pdftohtml, входящая в пакет poppler-utils.
Установим этот пакет:
sudo apt-get install poppler-utils
Для использования утилиты наберите:
pdftohtml pdffile.pdf htmlfile.html
Естественно подставьте наименования нужных файлов.
Для конвертации файлов включая изображения наберите:
pdftohtml -c pdffile.pdf htmlfile.html
Для просмотра полного списка ключей наберите:
man pdftohtml
Мое личное мнение: выходной html иногда довольно коряв, но если использовать для вытягивания текста и изображений, то программка неплохо справляется со своей задачей.
пятница, 5 февраля 2010 г.
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий