Recuperar PDF a LaTeX [cerrado]

https://stackoverflow.com/questions/1620002

06-07-2019
|

Pregunta

Sé cómo hacer un PDF desde LaTeX. ¿Hay alguna forma de extraer el código LaTeX de un PDF que creé anteriormente? ¿Qué tal si alguien me envía un PDF y me gusta el formato? ¿Puedo extraer el LaTeX de él?

Solución

LaTeX no tiene una conversión de uno a uno a PDF. Con respecto a su primera pregunta, creo que tal conversión puede ser técnicamente posible, pero no creo que exista una aplicación para hacerlo. De manera similar a la manera en que se puede descomponer el ensamblador en un lenguaje de alto nivel, es probable que haya una manera de hacerlo. Sin embargo, se permite que un pdf contenga toda clase de datos: dibujos de AutoCAD, gráficos JPEG, archivos de fuentes, formularios, firmas digitales, etc. LaTeX no tiene idea de qué son estas cosas. Entonces, en respuesta a la segunda pregunta, no, no hay una manera de extraer LaTeX equivalente de cualquier documento PDF.

Otros consejos

Hay una herramienta que lee archivos PDF como un OCR e intenta recrear el código Latex. Es casi perfecto y se llama " Infty Reader " ! Debido a que Latex es bastante extensible, no creo que sea correcto en todos los formatos.

Solo es posible si incrusta la fuente del documento en el archivo PDF. Consulte el paquete attachfile para hacer esto.

Versión corta: No.

Versión larga: se parece mucho a la descompilación: técnicamente podrías hacerlo, pero implicaría muchas suposiciones y heurísticas.

No estoy familiarizado con los aspectos internos del PDF, pero es probable que establezca las fuentes / tamaños / posición directamente, en lugar de definir un formato y aplicarlo a los encabezados y similares, como en LaTeX.

Es posible convertir tu PDF a HTML y tu HTML a TEX usando pdftohtml y gnuhtml2latex.

En efecto, está realizando la conversión de PDF a LaTeX en 2 pasos. El resultado sigue siendo como "hacer una vaca con una hamburguesa", pero en combinación con algunos scripts de limpieza, el resultado puede ser bastante decente.

La publicación del blog " PDF rudimentario para La conversión de LaTeX en Linux " on GlobalBlindSpot tiene un ejemplo de script Bash que convierte un archivo .pdf en un archivo .tex y ese en un archivo .pdf nuevamente.

Vea mi respuesta en la pregunta relacionada ( cómo convertir un DVI a tex? )

Para amplificar: no es necesario que los caracteres estén en orden de lectura (he encontrado archivos PDF en los que parte del sdrawkcab sdaer txet (y se basa en las coordenadas). Es muy difícil de reconstruir, ya que puede depender de la métrica de la fuente . Que puede utilizar el protocolo ASCII86 atroz.

La mejor manera de extraer datos de archivos PDF (debido a su formato complicado) es abrirlos con Adobe Illustrator. Luego, convierta el archivo pdf en un archivo svg y use una biblioteca de analizadores svg y escriba un código complicado sobre usted mismo.

Un lib svs parser eficiente es batik

(Para Linux es bastante complejo para convertir pdf a svg: calcmaster.net/personal_projects/pdf2svg/)

PS He estado intentando mucho para encontrar una solución a tu segunda parte de tu pregunta pero lo he descubierto en libros como "Visualizing Data, Ben Fry, O & # 8217; Reilly " ese pdf, especialmente el pdf de Adobe, es muy complejo de analizar, así que en lugar de eso use svg parser lib.

Inkscape puede importar archivos PDF y luego guardarlos como " LaTeX con macros PSTricks " que esencialmente funciona incorporando PostScript en la fuente de LaTeX. Es más problemático de lo que vale, y la fuente de látex resultante debe procesarse previamente antes de que pueda publicarse como PDF nuevamente.

De todos modos, incluso con un hipotético PDF al compilador de LaTeX, en el mejor de los casos obtendría algo en el que la posición y el tamaño de cada carácter o palabra se especifican por separado, lo contrario de lo que quiere, que supongo es para un denominador es la mitad de una fracción, en lugar de un número debajo de una línea horizontal.

Puede funcionar con texmacs , que incluye una importación de archivos pdf.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow