質問

質問に対する受け入れられた回答 画像認識用の C++ ライブラリ:文字列に含まれる単語を含む画像 次のことをお勧めします。

  1. 入力画像を 300 DPI まで拡大/縮小します。

どうすればいいでしょうか...私は DPI は画像形式ではなくモニター用のものであるという印象を持っていました。

役に立ちましたか?

解決

ここでの用語の方が正確だと思います リサンプリング. 。正確な OCR をサポートできるだけの高いピクセル解像度が必要です。フォントサイズ (例:で ポイント) は通常、ピクセルではなく長さの単位で測定されます。72 ポイント = 1 インチであるため、300 dpi (「インチあたりのピクセル数」) の解像度には 1 ポイントあたり 300/72 ピクセルが必要です。これは、一般的な 12 ポイントのフォントの高さ (より正確には、シングルスペース テキストのベースライン間の距離) が 50 ピクセルであることを意味します。

理想的には、画像内のフォントの高さが約 50 ピクセルになるように、ソース ドキュメントを特定のフォント サイズに適した解像度でスキャンする必要があります。解像度が高すぎるか低すぎる場合は、グラフィックス プログラム (例: GIMP)。これは、次のようなグラフィック ライブラリを使用してプログラムで実行することもできます。 イメージマジック 多くのプログラミング言語のインターフェースを備えています。

他のヒント

DPIを使用すると、画像サイズと物理デバイスにピクセル単位で画像を関連している時はいつでも理にかなっています。 OCRの場合、それは通常、あなたのスキャンの各インチのために取得する、すなわちどのように多くのピクセル、スキャンの解像度を意味しています。 12ポイントのフォントは、行当たり72分の12インチで印刷されることを意図され、そして大文字の文字は、その約80%を満たすかもしれません。 300dpiでスキャンしたときにこのように、それは約40ピクセルトールであろう。

多くの画像フォーマットは、それらに記録されてDPIを持っています。画像をスキャンした場合、これはスキャナからの正確な設定でなければなりません。それはデジタルカメラから来た場合、それは常にEXIF仕様で規定され、デフォルト値である72 DPIは言います。カメラは、画像の元のサイズを知ることができないためです。あなたはイメージングプログラムでイメージを作成するとき、任意の値にDPIを設定する機会があるかもしれません。これは、あなたが最終的な画像を使用する方法を指定するための便利であり、画像に含まれるディテールとは関係ありません。

ここで画像をリサイズの詳細を尋ねる前の質問です: 私は、画像の高品質なスケーリングをどのように行うのですか?

OCRソフトウェアは、典型的には、「通常」のフォントサイズで動作するように設計されています。ビューの画像点から、これはおそらく30画素100に高さ範囲の周囲に文字を探しているであろうことを意味します。はるかに高い解像度の画像を効率的に処理するOCRソフトのあまりに大きな表示された文字を生成します。同様に、低解像度の画像が文字を認識するためのソフトウェアのための十分なピクセルを提供しないであろう。

「どのように私はこれを行うだろう...私は解像度がモニターではなく、画像フォーマットのためだったという印象の下にあった。」

DPIはインチあたりのドット数を表します。何それはモニターと関係があるのでしょうか?まあ、我々は3つのRGBサブピクセルからなる画素を持っています。高DPI、詳細については、あなたはその空間に詰め込みます。

DPIは、実際には...画像フォーマット自身のために何も表示され、プリントのために有益な測定が、役に立つものではありません。

DPIはいくつかのフォーマット内でタグ付けされている理由は、事実上すべてのその命令を無視し、特定の出力用の画像を最適化するために最善をつくします、その解像度でなく、私が理解から、表示するデバイスを指示することです。

あなたは画像フォーマットで1つのDPIまたは6000 dpiのに72 DPIを変更することができ、それがモニターに全く違いはありません。 「DPI 300に縮小/アップサイズ」は意味がありません。リサンプリングは、どちらかのDPIを変更しません。 DPIを変更するときに「再サンプル」のチェックを外し、Photoshopでそれを試してみて、あなたはまったく違いは見られないだろう。それは大きくなったり小さく取得することはできません。

DPIはIMO、画像フォーマットには全く無意味です。

あなたの目標は、OCRの場合は、

、DPIは、元のスキャン文書内の各インチのためのあなたの画像のドット数として理にかなっています。あなたの解像度が低すぎる場合、情報が永遠に失われ、さらにはバイキュービック補間は、それを回復する華麗なジョブにするつもりはありません。あなたの解像度が高すぎる場合、それはビットを捨てるのは簡単です。

仕事を得るためには、私は、netpbmの/ PBMPLUSツールセットの大ファンです。あなたはビットマップを持っている場合は、そのようなpnmscaleなどの関連ツールを検討する必要がで開始するためのツールは、pbmreduceです。

scroll top