Estrazione correttamente il testo da un PDF (UTF-8)

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

Domanda

Voglio estrarre il testo da alcuni file PDF (a livello di programmazione, con un po 'di utilità o addirittura con copia / incolla) ma alcuni personaggi escono davvero strani.Sebbene specifico la codifica UTF-8 quando si estrae il testo, i caratteri come "ş, ţ, ă," ecc. Sembrano "" ˛ "e non" s, t, a "(o almeno il carattere visualizzato). Il testo viene visualizzato correttamente ma quando provo a copiarlo ad esempio, quei caratteri non sono ok.
C'è un modo per estrarre correttamente il testo o sono quei file PDF danneggiati in qualche modo (Java / C / Python ecc. O Windows / Linux / Etc Utility)?

Soluzione

puoi estrarre correttamente il testo in Acrobat dal PDF?

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow