¿Qué tecnología se usa detrás de A.Nnotate.com?

https://stackoverflow.com/questions/6806947

25-10-2019
|

Pregunta

Me gustaría saber cómo los servicios como A.Nnotate.com, Scribd, Google Docs renderizan PDF, .DOC o cualquier otro documento en HTML y cómo funciona el sistema de anotación.

Solución

A.NNotate.com realiza la conversión del lado del servidor de las páginas PDF en imágenes PNG a un nivel de zoom dado usando XPDF: estos son lo que se muestra en el navegador.

El resaltado de texto se realiza extrayendo las posiciones de texto del PDF, luego agregando una superposición transparente sobre las imágenes de la página con divs HTML absolutamente posicionados sobre las palabras. Las anotaciones luego usan una GUI AJAX para adjuntar notas al texto resaltado.

Otros formatos (MS Word, PPT, etc.) se convierten primero en PDF usando OpenOffice, luego a imágenes y superposiciones de texto como para PDF.

Creo que los otros sitios de documentos HTML hacen algo similar para representar PDF como HTML (es decir, imágenes de página + superposición de palabras como divs transparentes): un truco alternativo es convertir las fuentes incrustadas en PDF en fuentes CSS HTML5, y utiliza divs absolutamente posicionados para el texto ( & extraer y colocar las imágenes también).

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow