質問

いくつかのPDFファイルからテキストを抽出したい(いくつかのユーティリティで、またはコピー/ペーストでさえも)、一部の文字が本当に奇妙に出ています。テキストを抽出するときには、「↓」、「△」などの文字は「△」のように見え、「△」、「少なくとも表示されているキャラクター」のような文字を抽出するときはUTF-8エンコードを指定しています。 テキストは正しく表示されますが、たとえばコピーしようとすると、それらの文字は問題ありません。
テキストを正しく抽出する方法はありますか、または何らかの方法で破損したPDFファイル(Java / C / PythonなどまたはWindows / Linux / etcユーティリティ)?

役に立ちましたか?

解決

PDFからAcrobatでテキストを正しく抽出できますか?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top