PDFからのテキストを正しく抽出する（UTF-8）

https://stackoverflow.com//questions/10649511

11-12-2019
|

質問

いくつかのPDFファイルからテキストを抽出したい（いくつかのユーティリティで、またはコピー/ペーストでさえも）、一部の文字が本当に奇妙に出ています。テキストを抽出するときには、「↓」、「△」などの文字は「△」のように見え、「△」、「少なくとも表示されているキャラクター」のような文字を抽出するときはUTF-8エンコードを指定しています。テキストは正しく表示されますが、たとえばコピーしようとすると、それらの文字は問題ありません。
テキストを正しく抽出する方法はありますか、または何らかの方法で破損したPDFファイル（Java / C / PythonなどまたはWindows / Linux / etcユーティリティ）？

解決

PDFからAcrobatでテキストを正しく抽出できますか？

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow