Estrazione correttamente il testo da un PDF (UTF-8)
-
11-12-2019 - |
Domanda
Voglio estrarre il testo da alcuni file PDF (a livello di programmazione, con un po 'di utilità o addirittura con copia / incolla) ma alcuni personaggi escono davvero strani.Sebbene specifico la codifica UTF-8 quando si estrae il testo, i caratteri come "ş, ţ, ă," ecc. Sembrano "" ˛ "e non" s, t, a "(o almeno il carattere visualizzato).
Il testo viene visualizzato correttamente ma quando provo a copiarlo ad esempio, quei caratteri non sono ok.
C'è un modo per estrarre correttamente il testo o sono quei file PDF danneggiati in qualche modo (Java / C / Python ecc. O Windows / Linux / Etc Utility)?
Soluzione
puoi estrarre correttamente il testo in Acrobat dal PDF?
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow