質問
私はそれが言うことを知られたくない、そしてそれはCAPTCHAのような任意の歪みに対処されることはありません、私はちょうどの場合、の束を知りたい画像の任意のテキストが含まれています。
このアイドルLinuxサーバのカップル上で実行されますものです、そしてcronジョブは一日の画像を複数回の大規模なバッチを処理します。
私はプロセスでやりたいことの一つは、それらのテキストと任意の画像を破棄しています。私はいくつかの偽陽性を気にしない、私はそれが可能として廃棄されなければならないテキストと画像を識別することになるとゼロパーセントに近いが、失敗率取得したいと思います。
解決
たTesseract OCR-には、GoogleがGoogleブックスのために使用するものです。それを試してみる。
所属していません StackOverflow