Comment puis-je extraire le contenu du texte significatif d'un document LaTeX
-
27-10-2019 - |
Question
Je dois extrait texte uniquement contenu de mon document de thèse écrit en LaTeX pour un contrôle anti-plagiat automatisé. Je sais que sur l'option « projet » et il ne suffit pas.
Je suis censé Omettre:
- images,
- tables et d'autres chiffres,
- équations,
- les sous-titres et notes.
Il serait également bon de supprimer toutes les références. La sortie doit être un fichier texte (UTF-8 codé).
Y at-il moyen simple de le faire? Je ne vraiment pas envie de le copier page par page manuellement.
La solution
Vous pouvez essayer d'utiliser le paquet de commentaire (ou l'une d'une douzaine d'alternatives) pour transformer l'équation, figure, table, etc. dans des environnements et commentent \ renewcommand \ note [1] {} pour supprimer les notes. \ Pagestyle {vide} devrait supprimer la page rubriques etc., en cours d'exécution afin pdftotext le résultat devrait se rapprocher ot ce que vous voulez.
Autres conseils
Vous pouvez utiliser un convertisseur de documents comme pandoc , ou convertir la sortie PDF en texte brut avec quelque chose comme < a href = "http://calibre-ebook.com" rel = "nofollow"> Calibre .
En général, vous voulez un certain traitement LaTeX fait sur le texte, que vous avez
\ newcommand * {\ SO} {StackOverflow de l'index {StackOverflow} \ xspace}
...
Je passe beaucoup de temps sur \ SO, bla bla ....
Il suffit de filtrer le paragraphe texte ici ne donnera pas un texte comme le résultat escompté lorsqu'il contient des macros.
Par conséquent essayer d'extraire les choses directement à partir du fichier * .tex habituellement laisse beaucoup à partir du résultat recherché. Il est généralement donc préférable de travailler sur la production de traitement de latex. Je recommande de convertir un latex au format html et de html au texte. Vous aurez probablement besoin d'un peu de nettoyage manuel, mais je pense qu'il devrait être relativement proche.
Alors que DETEX a été mentionné, mais il y a un autre projet, visant à l'améliorer. Il est appelé opendetex , lui donner un look!