Frage

Ich muss extrahieren nur Text Inhalt aus meinem These-Dokument in Latex für eine automatisierte Anti-Plagiat-Prüfung. Ich weiß nur die Option "Entwurf" und es reicht nicht aus.

Ich soll weglassen:

  • Bilder,
  • Tische und andere Figuren,
  • Gleichungen,
  • Bildunterschriften und Fußnoten.

Es wäre auch schön, alle Referenzen zu entfernen. Die Ausgabe sollte eine einfache (UTF-8 codierte) Textdatei sein.

Gibt es einen einfachen Weg, dies zu tun? Ich habe nicht wirklich Lust auf das kopierende Kopieren von Seite für Seite.

War es hilfreich?

Lösung

Sie können versuchen, das Kommentarpaket (oder eines von einem Dutzend Alternativen) zu verwenden, um Gleichung, Abbildung, Tabelle usw. in Kommentarumgebungen und RenewCommand Fußnote [1] {} umzuwandeln, um Fußnoten zu entfernen. pagestyle {leer} sollte Seitenüberschriften usw. entfernen, sodass das Ausführen von PDFTOTOTEXT im Ergebnis von dem, was Sie wollen, in der Nähe kommen.

Andere Tipps

Ja : Untex, ein einfaches C -Skript. Sie können sich auch ansehen Detex.

Sie könnten einen Dokumentkonverter wie verwenden Pandoc, oder konvertieren Sie die Ausgabe PDF in einen einfachen Text mit so etwas wie Kaliber.

Normalerweise möchten Sie eine Latexverarbeitung im Text, sagen Sie, Sie haben

newCommand*{ so} {stackoverflow index {stackoverflow} xspace}

...

Ich verbringe viel Zeit mit also, bla bla ....

Wenn Sie den Textabsatz hier herausfiltern, gibt es keinen Text wie das beabsichtigte Ergebnis, wenn er Makros enthält.

Der Versuch, Dinge direkt aus der *.tex -Datei zu extrahieren, lässt normalerweise viel aus dem Ergebnis. Es ist in der Regel besser, an der Ausgabe aus der Latexverarbeitung auszuarbeiten. Ich würde empfehlen, Latex in HTML und dann von HTML zum Text umzuwandeln. Sie werden wahrscheinlich eine manuelle Reinigung benötigen, aber ich denke, es sollte relativ nah sein.

Während Detex erwähnt wurde, gibt es jedoch ein anderes Projekt, das darauf abzielt, es zu verbessern. Es wird genannt OPENDETEX, Schauen Sie es an!

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top