Pregunta

Lo que harán mis usuarios es seleccionar un documento PDF en su máquina, subirlo a mi sitio web, donde lo convertiré en un documento HTML para mostrar en el sitio web. El documento se almacenará en una base de datos después de la conversión.

¿Cuál es la mejor manera de convertir un PDF a HTML?

Se me entregó un requisito en el que un usuario crearía una " noticias " historia como un pdf y luego lo subiría al servidor, donde se convertirá a HTML y se mostrará en el sitio web.

¿Fue útil?

Solución

Cualquier software de creación de documentos que pueda guardar documentos como PDF puede guardarlos como HTML. Supongo que el problema es que sus usuarios crearán documentos enriquecidos (muchas imágenes incrustadas), lo que da como resultado múltiples archivos, y sus requisitos provienen del deseo de hacer que la carga de estos documentos sea lo más simple posible para el usuario.

Existen numerosos paquetes de conversión que probablemente puedan hacer esto por usted, sin embargo, cuando habla de contenido enriquecido, habla de texto más imágenes. Esas imágenes deben almacenarse en algún lugar y servirse de alguna manera, y cualquier método de conversión que use requerirá que examine todas las fuentes de imágenes para asegurarse de que apunten a ubicaciones válidas en su servidor.

Me gustaría sugerir una forma alternativa de hacer esto que puede llevar a su equipo: Implemente una de las muchas API de blog para publicar contenido. Existen paquetes de software gratuitos y comerciales que utilizan estas API para publicar contenido directamente en un sitio web, como Windows Live Writer y Microsoft Word. Sus usuarios simplemente pueden crear su contenido y subirlo directamente a su sitio web sin tener que publicarlo primero como PDF y luego subirlo. Por lo tanto, el proceso se vuelve mucho más fluido para sus usuarios, y obtiene las publicaciones en una forma que no requiere que gaste miles de dólares en desarrollar o comprar código de conversión.

Las dos API más comunes son MetaWeblog API y API de tipo móvil . Ambos son muy simples y fáciles de implementar. Creo que de esta manera sería una alternativa MUCHO mejor que lo que estás pensando hacer.

Otros consejos

No creo que convertir un PDF a una cadena HTML sea necesariamente la mejor idea, especialmente si desea exportarlo de nuevo como PDF. Los archivos PDF a menudo contienen elementos binarios como imágenes, por lo que puede ser mejor convertirlo a ASCII mediante una codificación, como Base64. De esa manera, tendrá una cadena ASCII que puede guardar en un campo de texto en la base de datos y luego volver a convertirla. ¿Podría ampliar más sobre el requisito principal?

Mi recomendación sería no hacerlo de esa manera SI ES POSIBLE (pero todos sabemos cómo son los gerentes) así que ...

Recomendaría que se mantenga alejado de convertir el PDF a / desde HTML (porque a menos que pueda encontrar una solución comercial, será casi imposible) y en su lugar haga lo que ya se mencionó y almacénelo como una cadena codificada de Base64 , o BLOB o algún otro formato binario en la base de datos, y luego se lo muestra al usuario con algún tipo de complemento de visualización de PDF para el navegador.

Todo lo que se necesitó fue una simple búsqueda en Google de " PDF a HTML " ;: http: // www .gnostice.com / pdf2manyOverview_x.asp . Estoy seguro de que hay otros.

Entonces, si bien es "posible", es posible que desee explicarle a su gerente que esta no es la mejor solución de administración de contenido.

¿Por qué no usar el iTextSharp para leer el contenido en PDF? Luego, podría guardar tanto el PDF binario como el contenido de texto en la base de datos. A continuación, puede permitir que los usuarios busquen el contenido y descarguen el PDF.

Deberías buscar en DynamicPDF. Tienen un convertidor (actualmente Beta) para cumplir exactamente este propósito. Hemos utilizado sus productos con gran éxito (especialmente para descargar informes de Reporting Services directamente en PDF).

Ref: http://www.dynamicpdf.com/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top