OCR：如何比较图像，整理不匹配出来，这样做快？

https://stackoverflow.com/questions/574923

05-09-2019
|

题

我设法让每个字符存储在一个位图，并正在寻找一种方法来快速确定它是字符。

因此我即将每一个可能的字符存储到的1和0的数组，并将它们与我只抓住所述位图阵列。

我可以做简单的检查，比较喜欢我了多少黑色像素得到的，比较的尺寸等，但所有这些检查都慢（只是猜测..）。

因此，我正在寻找的是一个方法，该方法进入槽的每一个像素从底部到顶部，或随机地将阵列与一组阵列和各种各样的不匹配时，直到只有一个阵列保持。但是，我怎么能实现呢？

感谢您的帮助。

斯文

解决方案

在OCR世界这是非常难得，你碰上targetresource和你原来的比较资源之间的“绝配”。

其实这是一个巨大的科学领域，但这里是一个不错的论文上应该给你一些基本知识的主题： http://www.discover.uottawa.ca/~qchen/my_papers/ master_thesis.pdf

请注意，像这样的算法是非常重的数学和在现在的方式用于一个标准的x86 CPU优化。

如果你正在寻找一个完美的比赛（我的意思是，真的完美，下至字节到字节）和要实现这一快速，方便，我建议做一个“跳过明显不匹配快” - 有点算法 - 是这样的：

1）比较数组的大小，如果不同，它不是你找什么

2）比较每个位图的哈希值

3）尽快比较每个位/字节一个接一个，当你看到一个区别，它不是你找什么

4）运，则找到了一个匹配：）

这是非常缓慢的，这取决于你想要达到的目的，但很容易实现，它会工作。所以顺利的原型都应用。正如我所说，OCR（和所有其他形式的数字信号处理）是研究一个巨大的领域，所以它不是你能指望别人来教你快速forumpost，可悲的是：（

好运

[编辑]看在你的OQ的评论，我会说去一个哈希表/字典数据结构将是最快的为您服务。这，或二进制搜索树..两个非常依赖颌骨坏死的哈希密钥生成器：）

[EDIT2（XD）]“这是由计算机产生的混叠的文本。背景不同，但文本总是具有相同的颜色。”漂亮有重要的信息：P的文本/位图的大小总是一样的呢？我建议，要么实现自己的哈希算法，您放弃预设背景颜色，使散列值只依赖于文本的颜色（这也太OFC的形状），或者干脆重写所有背景像素在你的目标是相同的颜色作为您的原始（或只设置原始背景到你的目标，你与这里战斗哪些数据又依赖 - 需要更多的信息:)）。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow