pdftotextを使用してUTF-8形式でテキストファイルを保存する方法

https://stackoverflow.com/questions/4039930

27-09-2019
|

質問

PDFTOTEXT OpenSourceツールを使用して、PDFをテキストファイルに変換しています。テキストファイルをテキストファイルのすべてのアクセント文字を保持できるように、テキストファイルをUTF-8形式で保存するにはどうすればよいですか。以下のコマンドを使用して、コンテンツをテキストファイルに抽出するが、アクセントのある文字が表示されないことを変換しています。

pdftotext -enc utf -8 book1.pdf book1.txt

この問題を解決するのを手伝ってください。

前もって感謝します、

解決

コマンドを使用して、利用可能なエンコーディングのリストを取得できます。

pdftotext -listenc

そして、-enc引数を使用して正しいものを選択します。ここの私のものは、デフォルトでUTF-8を行うようです。つまり、あなたの「UTF-8」は超流があります

pdftotext -enc UTF-8 your.pdf

ロケール（LC_ALL、LANG、...）を確認することをお勧めします。

編集：次のPDFをダウンロードしました。http://www.i18nguy.com/unicode/unicodeexample.pdf

コマンドを使用して、Windows 7 PC（ドイツ語）およびXPDF 3.02PL5で変換しました。

pdftotext.exe -enc UTF-8 unicodeexample.pdf

すべての文字が正しく表示されるため、テキストファイルは間違いなくUTF-8エンコードされています。テキストファイルを使用していますか？ Webアプリケーションを介して表示している場合、コンテンツエンコードは単に間違っている可能性がありますが、テキストファイルは必要に応じて変換されています。

ブラウザ（FirefoxでエンコードをISO-8859-1およびUTF-8に強制する）を使用して、またはHEXエディターを使用してダブルチェックします。

他のヒント

物事は少し乱雑になっているので、別の答えを追加しています。

私はPDFを分解しましたが、私の最善の推測は、使用されたフォントの「問題」です。

Acrobar ReaderでPDFファイルを開きます
ページ上のすべてのテキストを選択します
コピーして、Unicode-Awareのテキストエディターに貼り付けます（「隠された」OCRはありませんので、実際のデータをコピーしています）

あなたが終わらせるコードポイントは、あなたがPDFリーダーで見ているものではないことがわかります。フォントが何であれ、Unicode標準で定義されているものとは異なるマッピングがある場合があります。そのため、コンテンツは「wront」であり、それについてできることはあまりありません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow