Come faccio a estrarre il contenuto del testo significativo da un documento LaTeX

https://stackoverflow.com/questions/4837177

27-10-2019
|

Domanda

Ho bisogno di estrarre solo testo il contenuto del mio documento tesi scritta in LaTeX per un controllo automatico anti-plagio. So solo l'opzione "bozza" e non è sufficiente.

dovrei omettere:

immagini,
tavoli e altre figure,
equazioni,
didascalie e note a piè pagina.

Sarebbe anche bello per rimuovere tutti i riferimenti. L'uscita dovrebbe essere una pianura (UTF-8 codificato) file di testo.

C'è un modo semplice per fare questo? Non veramente elegante copiandolo pagina per pagina manualmente.

Soluzione

Si potrebbe provare a utilizzare il commento pacchetto (o uno di una decina di alternative) per trasformare l'equazione, figura, tabella ecc negli ambienti di commento e \ renewcommand \ nota [1] {} per rimuovere note. \ Pagestyle {empty} dovrebbe rimuovere pagina intestazioni ecc, in modo esecuzione pdftotext sul risultato dovrebbe venire vicino ot ciò che si desidera.

Altri suggerimenti

Si: untex , un semplice script C. Si può anche guardare al Detex .

È possibile utilizzare un convertitore di documenti come Pandoc , o convertire il file PDF in testo semplice con qualcosa di simile < a href = "http://calibre-ebook.com" rel = "nofollow"> Calibro .

Di solito si vuole un po 'di elaborazione LaTeX fatto sul testo, supponiamo di avere

\ newcommand * {\ SO} {StackOverflow \ index {StackOverflow} \ Xspace}

...

I spendere un sacco di tempo su \ SO, bla bla ....

Proprio filtrando il paragrafo testo qui non darà un testo come il risultato previsto quando contiene tutte le macro.

Quindi cercando di estrarre le cose direttamente dal file * .tex solito lascerà tanto da essere voluto dal risultato. È tipicamente quindi meglio lavorare in uscita dalla lavorazione lattice. Suggerirei di convertire in lattice in html e poi da HTML in testo. Si avrà probabilmente bisogno di qualche manuale di clean-up, ma penso che dovrebbe essere relativamente vicino.

Mentre Detex è stata menzionata, tuttavia c'è un altro progetto, volto a migliorarlo. Si chiama opendetex , dargli un'occhiata!

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow