Domanda

Voglio estrarre il testo da alcuni file PDF (a livello di programmazione, con un po 'di utilità o addirittura con copia / incolla) ma alcuni personaggi escono davvero strani.Sebbene specifico la codifica UTF-8 quando si estrae il testo, i caratteri come "ş, ţ, ă," ecc. Sembrano "" ˛ "e non" s, t, a "(o almeno il carattere visualizzato). Il testo viene visualizzato correttamente ma quando provo a copiarlo ad esempio, quei caratteri non sono ok.
C'è un modo per estrarre correttamente il testo o sono quei file PDF danneggiati in qualche modo (Java / C / Python ecc. O Windows / Linux / Etc Utility)?

È stato utile?

Soluzione

puoi estrarre correttamente il testo in Acrobat dal PDF?

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top