Вопрос

Мои пользователи будут выбирать документ PDF на своем компьютере, загружать его на мой веб-сайт, где я преобразую его в HTML-документ для отображения на веб-сайте. Документ будет сохранен в базе данных после преобразования.

Как лучше всего конвертировать PDF в HTML?

Мне передали требование, чтобы пользователь создавал " новости " story в формате PDF и затем загрузит ее на сервер, где она будет преобразована в HTML и отображена на веб-сайте.

Это было полезно?

Решение

Любое программное обеспечение для создания документов, которое может сохранять документы в формате PDF, может сохранять их в формате HTML. Я предполагаю, что проблема заключается в том, что ваши пользователи будут создавать расширенные документы (много встроенных изображений), что приведет к созданию нескольких файлов, а ваши требования проистекают из желания сделать загрузку этих документов максимально простой для пользователя.

Существует множество конверсионных пакетов, которые, вероятно, могут сделать это за вас, однако, когда вы говорите о многофункциональном контенте, вы говорите о тексте и изображениях. Эти изображения нужно где-то хранить и каким-то образом обслуживать, и какой бы метод конвертации вы ни использовали, вам потребуется изучить все источники изображений, чтобы убедиться, что они указывают на действительные местоположения на вашем сервере.

Я хотел бы предложить альтернативный способ сделать это, который вы можете предложить своей команде: внедрить один из многих API блогов для публикации контента. Существуют бесплатные и коммерческие пакеты программного обеспечения, которые используют эти API для публикации контента непосредственно на веб-сайте, например, Windows Live Writer и Microsoft Word. Ваши пользователи могут просто создавать свой контент и загружать его прямо на ваш сайт, не публиковая его сначала в формате PDF, а затем загружая его. Таким образом, процесс становится намного более плавным для ваших пользователей, и вы получаете сообщения в форме, которая не требует от вас тратить тысячи долларов на разработку или покупку кода конверсии.

Двумя наиболее распространенными API являются API MetaWeblog и API подвижного типа . Оба очень просты и просты в реализации. Я думаю, что этот путь будет НАМНОГО лучшей альтернативой, чем то, о чем вы думаете.

Другие советы

Я не думаю, что преобразование PDF в строку HTML обязательно является лучшей идеей, особенно если вы хотите экспортировать ее обратно в PDF. Файлы PDF часто содержат двоичные элементы, такие как изображения, поэтому лучше всего преобразовать их в ASCII с помощью кодировки, такой как Base64. Таким образом, у вас будет строка ASCII, которую вы можете сохранить в текстовое поле в БД и затем преобразовать обратно. Не могли бы вы подробнее рассказать об основных требованиях?

Я бы порекомендовал не делать этого, ЕСЛИ ВОЗМОЖНО (но мы все знаем, какие менеджеры), так что ...

Я бы порекомендовал вам избегать преобразования PDF в / из HTML (потому что если вы не сможете найти коммерческое решение, оно почти невозможно), а вместо этого сделайте, как уже упоминалось, и сохраните его в виде закодированной строки Base64. или BLOB или какой-либо другой двоичный формат в базе данных, а затем отобразить его пользователю с помощью своего рода плагина просмотра PDF для браузера.

Все, что для этого потребовалось, - это простой поиск в Google по запросу «PDF в HTML»: http: // www .gnostice.com / pdf2manyOverview_x.asp . Я уверен, что есть другие.

Поэтому, хотя это «возможно», вы можете объяснить своему менеджеру, что это не лучшее решение для управления контентом.

Почему бы не использовать iTextSharp для чтения содержимого PDF? Затем Вы можете сохранить как двоичный PDF, так и текстовое содержимое в базу данных. Затем вы можете позволить пользователям выполнять поиск содержимого и загружать PDF.

Вы должны заглянуть в DynamicPDF. У них есть конвертер (в настоящее время бета), предназначенный именно для этой цели. Мы с большим успехом использовали их продукты (особенно для отправки отчетов служб Reporting Services непосредственно в PDF).

Ссылка: http://www.dynamicpdf.com/

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top