在图像中定位文本

题

我目前正在开发一个项目，我的目标是在图像中定位文本。到目前为止，对文本进行 OCR 还不是我的意图。我基本上想获得图像中文本的边界。我正在使用 AForge.Net 成像组件进行操作。有某种意义上的帮助吗？

2009 年 2 月 5 日更新：从那以后，我在我的项目中走了另一条路。不过，我确实尝试使用 MODI（Microsoft Office Document Imaging）获取文本。它允许您轻松地对图像进行 OCR 并从中提取文本。

解决方案

这是一个活跃的研究领域。关于这个主题的学术论文确实有很多。很难为您提供帮助，尤其是在没有更多细节的情况下。您在寻找特定类型的文本吗？字体？仅限英语？您熟悉学术文献吗？

“文本检测”是任何 OCR（光学字符识别）系统中的一个标准问题，因此互联网上有大量处理该问题的代码。

我可以开始列出来自谷歌的大量链接，但我建议你搜索“文本检测”并开始阅读:)。还有充足的示例代码可用。

其他提示

识别图像中的文本确实是该领域研究人员的热门话题，但只有在以下情况下才开始失控：验证码的成为防御垃圾邮件机器人的“规范”。为什么使用验证码作为保护？好吧，因为很难找到（和读取）图像中的文本！

我之所以提到验证码，是因为最大的进步*是在那个小区域内取得的，我认为您的解决方案可以最好地在那里找到。特别是因为验证码确实是在杂乱的图像中定位文本（或类似文本的内容），然后尝试正确读取字母。

所以如果你能找到自己一个很好的开源验证码破解工具你可能拥有继续你的探索所需的一切......
您甚至可以丢弃处理字符识别本身的最困难的代码，因为这些 OCR 用于读取扭曲的文本，这是您不必做的事情。

*:在可见性、可用性和可使用性方面取得进步 实际的 为“非研究人员”提供的信息

如果您可以使用在线 API 来实现此目的，则该 API 位于 http://www.wisetrend.com/wisetrend_ocr_cloud.shtml 除了 OCR 之外，还可以进行文本检测。

笔划宽度变换可以为你做到这一点。这至少是微软为其手机操作系统开发的。关于实施的讨论是这里是 https://stackoverflow.com/

许可以下： CC-BY-SA 和归因