我目前正在开发一个项目,我的目标是在图像中定位文本。到目前为止,对文本进行 OCR 还不是我的意图。我基本上想获得图像中文本的边界。我正在使用 AForge.Net 成像组件进行操作。有某种意义上的帮助吗?

2009 年 2 月 5 日更新:从那以后,我在我的项目中走了另一条路。不过,我确实尝试使用 MODI(Microsoft Office Document Imaging)获取文本。它允许您轻松地对图像进行 OCR 并从中提取文本。

有帮助吗?

解决方案

这是一个活跃的研究领域。关于这个主题的学术论文确实有很多。很难为您提供帮助,尤其是在没有更多细节的情况下。您在寻找特定类型的文本吗?字体?仅限英语?您熟悉学术文献吗?

“文本检测”是任何 OCR(光学字符识别)系统中的一个标准问题,因此互联网上有大量处理该问题的代码。

我可以开始列出来自谷歌的大量链接,但我建议你搜索“文本检测”并开始阅读:)。还有充足的示例代码可用。

其他提示

识别图像中的文本确实是该领域研究人员的热门话题,但只有在以下情况下才开始失控: 验证码的 成为防御垃圾邮件机器人的“规范”。为什么使用验证码作为保护?好吧,因为很难找到(和读取)图像中的文本!

我之所以提到验证码,是因为最大的进步*是在那个小区域内取得的,我认为您的解决方案可以最好地在那里找到。特别是因为验证码确实是在杂乱的图像中定位文本(或类似文本的内容),然后尝试正确读取字母。

所以如果你能找到自己 一个很好的开源验证码破解工具 你可能拥有继续你的探索所需的一切......
您甚至可以丢弃处理字符识别本身的最困难的代码,因为这些 OCR 用于读取扭曲的文本,这是您不必做的事情。

*:在可见性、可用性和可使用性方面取得进步 实际的 为“非研究人员”提供的信息

如果您可以使用在线 API 来实现此目的,则该 API 位于 http://www.wisetrend.com/wisetrend_ocr_cloud.shtml 除了 OCR 之外,还可以进行文本检测。

笔划宽度变换 可以为你做到这一点。这至少是微软为其手机操作系统开发的。关于实施的讨论是 这里是 https://stackoverflow.com/

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top