Frage

Ich möchte Text aus einigen PDF-Dateien (programmgesteuert, mit einem Dienstprogramm oder sogar mit Kopie / Einfügen) extrahieren, aber einige Zeichen kommen wirklich seltsam aus.Obwohl ich die UTF-8-Kodierung angeben, wenn Sie den Text extrahieren, sehen Sie sich wie "Ş, ţ, ă," wie "Ş, ţ, ă usw." aus, wie "˛" und nicht "S, T, A" (oder zumindest das angezeigte Zeichen). Der Text wird korrekt angezeigt, aber wenn ich versuche, es beispielsweise zu kopieren, sind diese Zeichen nicht in Ordnung.
Gibt es eine Möglichkeit, den Text richtig zu extrahieren, oder sind diese PDF-Dateien, die in irgendeiner Weise beschädigt wurden (Java / C / Python usw. oder Windows / Linux / etc-Dienstprogramm)?

War es hilfreich?

Lösung

können Sie den Text in Acrobat von der PDF korrekt extrahieren?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top