有没有办法改善与小字体的Tesseract OCR?
-
29-10-2019 - |
题
我正在尝试通过python-tesseract使用tesseract-ocr来读取一个看起来像这样的低分辨率字体:
不幸的是,图像返回
ZIJZHZI
.
我认为分辨率太低,导致问题。我尝试放大图像,并将其裁剪到各个角色,但这些都没有提供了很大的改进。还有什么我应该考虑的吗,最好是使用Python成像库进行的东西?或者我应该放弃/火车tesseract。
对于它的价值,PIL有以下内置过滤器:
模糊,轮廓,细节,Edge_enhance,
Edge_enhance_More,Find,Find_edge,
光滑,光滑_移动,并锐化
解决方案
我试图用:放大图像
convert -resize 400% in.bmp out.bmp
.
然后阅读它:
tesseract out.bmp res
.
结果是正确的:
100
. 不隶属于 StackOverflow