Что такое хороший конвертер PDF в HTML для Ruby on Rails?[закрыто]

https://stackoverflow.com/questions/1900423

19-09-2019
|

Вопрос

Я пытаюсь программно преобразовать PDF в HTML.До сих пор я использовал pdftohtml но наши пользователи недовольны результатами.

Вот что мне нужно :

Я использую Ruby on Rails, но любой инструмент, работающий в Unix, будет работать так, как я могу вызвать его из командной строки.Но, конечно, хороший драгоценный камень или плагин был бы идеальным.
Я бы предпочел, чтобы это был открытый исходный код
Он должен уметь обрабатывать изображения
Было бы неплохо, если бы была возможность при необходимости удалять изображения
Она должна быть стабильной
Он должен возвращать html с макетом, близким к исходному pdf (я пробовал pdftohtml и во многих случаях результат не так уж хорош)

Решение

Вот еще пара альтернатив pdftohtml/xpdf:

У Adobe есть бесплатный онлайн-файл PDF в HTML или текст. конверсионный сервис.Возврат документа может занять минуту или две, но я подозреваю, что этот вариант даст вам наилучшие результаты.
Eсть PDF-ридер Ruby Gem, который даст вам доступ к внутренней части PDF-файла.Это потребует некоторой разработки/расширения с вашей стороны, но вы можете использовать это для анализа PDF-файла и создания красивого HTML.Это может быть проще, чем кажется, если вы заранее знаете, какой тип файлов конвертируют ваши пользователи (например, если они работают со стандартизированными формами).
У вас может быть больше возможностей, если вы используете скрипт-призрак (драгоценный камень найдено здесь), чтобы сначала преобразовать PDF-файл в другой формат.Драгоценный камень может генерировать изображения (png, jpg и т. д.) из файла PDF, но вам, возможно, повезет преобразовать его в файл PostScript, поскольку, похоже, существует огромное количество конвертеров «PostScript-to-[вставьте формат здесь]».

Другие советы

Для преобразования PDF в HTML pdf2htmlEX кажется довольно хорошим инструментом (смотря на все примеры/образцы):

https://github.com/coolwanglu/pdf2htmlEX

Если все остальное не помогло, вы можете превратить каждую страницу в изображение (используя магию изображений или что-то подобное) и отобразить изображения, а-ля http://books.google.com или http://safari.oreilly.com.Это потребует больших затрат пропускной способности, но вы получите точность оригинала.

Некоторое время я работал над исследовательским проектом, в котором в качестве входных данных использовались PDF-файлы.То, о чем вы просите, — это просто очень сложная задача, и ни одно программное обеспечение не справится с ней идеально.В то время как HTML имеет некоторую структуру, например <p>, PDF носит чисто презентационный характер.В HTML-документе будет написано: «Это абзац.Это образ.» и представление интерпретируется исходя из этого.В PDF-документе по сути будет сказано:«Этот символ должен отображаться в позиции X,Y.следующий символ будет отображен в позиции...» и т. д.Так что даже построить из этого абзацы может быть сложно.

Я работал на Java, поэтому не думаю, что конкретная программа, которую я использовал, будет вам очень полезна.Кроме того, я помню, что некоторые генераторы PDF объединяют изображение в более мелкие изображения и отображают их рядом друг с другом — это было огромной проблемой.

Есть ли какой-нибудь способ работать с другим форматом или снизить свои ожидания?Вы могли бы сделать имидж, как предлагает Уэйн, но тогда это не так. Действительно HTML (и он недоступен — вас это беспокоит?).Возможно, это просто то, с чем вы живете.

Попробуйте использовать poppler или xpdf.Но для этого нужно немного магии и привязки.

можешь попробовать http://www.pdf-to-html-word.com/pdf-to-htmlкоторый работает очень хорошо.Я заплатил за него после проверки его работоспособности.У вас есть бесплатная поездка, чтобы проверить это.Или же используйте Acrobat Pro и сохраните как HTML с CSS.Это тоже работает.Но работать с кучей файлов — это заноза в заднице.

Можно попробовать это.Я попробовал обернуть Ruby вокруг утилиты pdftohtml.Джем доступен здесь: http://gemcutter.org/gems/pdftohtmlr

После использования pdftohtml в течение некоторого времени и неудовлетворенности результатами отображения html-версии я рассматриваю возможность использования либо google apps document API, либо scribd API (мой любимый на данный момент)

http://www.scribd.com/developers/api

В конце концов, я, вероятно, буду использовать pdftohtml для простого извлечения текстового содержимого PDF-файла и scribd api для отображения исходного файла на странице пользователя

Я только что выпустил рубиновый драгоценный камень для преобразования документов в открытом офисе без головы (через poyconverter или jodconverter).он также интегрирует несколько других библиотек (pdftools и netpbm) для извлечения текста и изображений из файлов PDF.

Вы можете найти это здесь https://github.com/itkin/proselytism.git

Не стесняйтесь добавлять свои собственные конвертеры и сообщать мне о некоторых проблемах.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow