Question

Je sais comment créer un fichier PDF à partir de LaTeX. Existe-t-il un moyen d'extraire le code LaTeX d'un fichier PDF créé précédemment? Que diriez-vous si quelqu'un m'envoie un PDF et que j'aime le formatage. Puis-je en extraire le LaTeX?

Était-ce utile?

La solution

LaTeX ne permet pas la conversion individuelle en PDF. En ce qui concerne votre première question, je pense qu'une telle conversion est peut-être techniquement possible, mais je ne crois pas qu'une application pour le faire existe encore. Semblable à la façon dont l’assembleur peut être décompilé en langage de haut niveau, il existe probablement un moyen de le faire. Toutefois, un fichier PDF est autorisé à contenir toutes sortes de données: dessins AutoCAD, graphiques JPEG, fichiers de polices, formulaires, signatures numériques, etc. LaTeX n'a ??aucune idée de ce que sont ces éléments. La réponse à la deuxième question est donc non - il n’existe aucun moyen d’extraire du LaTeX équivalent d’un document PDF.

Autres conseils

Il existe un outil qui lit les fichiers PDF comme un OCR et tente de recréer le code Latex. C'est presque parfait et s'appelle "Infty Reader" & ;! Parce que Latex est assez extensible, je ne pense pas que tous les formats sont corrects.

Cela n’est possible que si vous intégrez la source du document dans le fichier PDF. Consultez le fichier attaché pour cette opération.

Version abrégée: n °

Version longue: Cela ressemble beaucoup à la décompilation: techniquement, vous pourriez le faire, mais cela impliquerait beaucoup de devinettes et d'heuristiques.

Je ne connais pas bien les règles de PDF, mais il est probable que les polices / tailles / positions seront définies directement, au lieu de définir un format et de l'appliquer aux en-têtes, etc.

Il est possible de convertir vos PDF en HTML et vos HTML en TEX en utilisant pdftohtml et gnuhtml2latex.

En fait, vous effectuez une conversion de PDF à LaTeX en 2 étapes. Le résultat est toujours comme "faire une vache avec un hamburger", mais combiné à quelques scripts de nettoyage, le résultat peut être plutôt correct.

L'article du blog " PDF rudimentaire en Conversion LaTeX sous Linux " sur GlobalBlindSpot a un exemple de script Bash qui convertit un fichier .pdf en un fichier .tex et celui-ci à nouveau en un fichier .pdf.

Voir ma réponse à la question connexe ( comment transformer un DVI to tex? )

Pour amplifier - il n’est pas nécessaire que les caractères soient dans l’ordre de lecture (j’ai trouvé des PDF dont certaines parties du sdrawkcab sdaer txet (et qui reposent sur les coordonnées). C’est très difficile à reconstruire car il peut dépendre de la métrique de police. .Qui peut utiliser l’improbable protocole ASCII86.

La meilleure méthode d'exploration de données à partir de fichiers pdf (en raison de son format complexe) consiste à les ouvrir avec Adobe Illustrator. Puis convertissez le fichier pdf en fichier svg et utilisez une bibliothèque d’analyseur svg pour écrire du code compliqué sur vous-même.

Un analyseur svg efficace est le batik

.

(Pour Linux, la conversion de pdf en svg est un peu complexe: calcmaster.net/projets_personnel/pdf2svg /)

PS J'ai beaucoup essayé depuis de trouver une solution à votre deuxième partie de votre question mais j’ai figuré dans des livres tels que "Visualizing Data, Ben Fry, O & Re 8217; Reilly". ce pdf en particulier Adobe pdf est trop complexe à analyser, utilisez plutôt un analyseur svg lib.

Inkscape peut importer des fichiers PDF, puis les enregistrer en tant que "Macros LaTeX avec PSTricks". qui fonctionne essentiellement en incorporant PostScript dans la source LaTeX. C’est plus un problème que sa valeur, et la source Latex résultante doit être prétraitée avant de pouvoir être à nouveau imprimée au format PDF.

Quoi qu’il en soit, même avec un hypothétique compilateur PDF to LaTeX, vous obtiendrez au mieux un résultat dans lequel la position et la taille de chaque caractère ou mot sont spécifiées séparément - le contraire de ce que vous voulez, ce que je suppose, c’est pour un dénominateur est la moitié d'une fraction plutôt qu'un nombre situé au-dessous d'une ligne horizontale.

Cela peut fonctionner avec texmacs , qui inclut une importation de fichiers PDF.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top