Question

Je dois extrait texte uniquement contenu de mon document de thèse écrit en LaTeX pour un contrôle anti-plagiat automatisé. Je sais que sur l'option « projet » et il ne suffit pas.

Je suis censé Omettre:

  • images,
  • tables et d'autres chiffres,
  • équations,
  • les sous-titres et notes.

Il serait également bon de supprimer toutes les références. La sortie doit être un fichier texte (UTF-8 codé).

Y at-il moyen simple de le faire? Je ne vraiment pas envie de le copier page par page manuellement.

Était-ce utile?

La solution

Vous pouvez essayer d'utiliser le paquet de commentaire (ou l'une d'une douzaine d'alternatives) pour transformer l'équation, figure, table, etc. dans des environnements et commentent \ renewcommand \ note [1] {} pour supprimer les notes. \ Pagestyle {vide} devrait supprimer la page rubriques etc., en cours d'exécution afin pdftotext le résultat devrait se rapprocher ot ce que vous voulez.

Autres conseils

Oui: untex , un simple script C. Vous pouvez également consulter DETEX .

Vous pouvez utiliser un convertisseur de documents comme pandoc , ou convertir la sortie PDF en texte brut avec quelque chose comme < a href = "http://calibre-ebook.com" rel = "nofollow"> Calibre .

En général, vous voulez un certain traitement LaTeX fait sur le texte, que vous avez

\ newcommand * {\ SO} {StackOverflow de l'index {StackOverflow} \ xspace}

...

Je passe beaucoup de temps sur \ SO, bla bla ....

Il suffit de filtrer le paragraphe texte ici ne donnera pas un texte comme le résultat escompté lorsqu'il contient des macros.

Par conséquent essayer d'extraire les choses directement à partir du fichier * .tex habituellement laisse beaucoup à partir du résultat recherché. Il est généralement donc préférable de travailler sur la production de traitement de latex. Je recommande de convertir un latex au format html et de html au texte. Vous aurez probablement besoin d'un peu de nettoyage manuel, mais je pense qu'il devrait être relativement proche.

Alors que DETEX a été mentionné, mais il y a un autre projet, visant à l'améliorer. Il est appelé opendetex , lui donner un look!

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top