Extrahieren korrekt den Text von einem PDF (UTF-8)

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

Frage

Ich möchte Text aus einigen PDF-Dateien (programmgesteuert, mit einem Dienstprogramm oder sogar mit Kopie / Einfügen) extrahieren, aber einige Zeichen kommen wirklich seltsam aus.Obwohl ich die UTF-8-Kodierung angeben, wenn Sie den Text extrahieren, sehen Sie sich wie "Ş, ţ, ă," wie "Ş, ţ, ă usw." aus, wie "˛" und nicht "S, T, A" (oder zumindest das angezeigte Zeichen). Der Text wird korrekt angezeigt, aber wenn ich versuche, es beispielsweise zu kopieren, sind diese Zeichen nicht in Ordnung.
Gibt es eine Möglichkeit, den Text richtig zu extrahieren, oder sind diese PDF-Dateien, die in irgendeiner Weise beschädigt wurden (Java / C / Python usw. oder Windows / Linux / etc-Dienstprogramm)?

Lösung

können Sie den Text in Acrobat von der PDF korrekt extrahieren?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow