我最近把一个界面,用于扫描和上载可检索的文件KnowledgeTree,我们的文件管理系统。我们有机会获得充足的单独的工具的不同部分的这一进程,但我想把一切都变成一个接口,让事情变简单的用户。

这里的平台:

#    OS: Ubuntu Desktop 10.04
#    GUI Toolkit: wxPython
#    OCR package: Tesseract 3.00 (compiled executable)

这里是基本进程:

#    1. Retrieve individual page images from scanner
#    2. Call Tesseract OCR executable to produce HOCR data for each page
#    3. Run extracted words against English dictionary to guess if page orientation is correct
#        3a. If word matches are below threshold, rotate page 90 degrees and try again
#    4. Detect document type and retrieve metadata from HOCR data
#    5. Merge scanned pages and HOCR data into a finished PDF
#    6. Upload PDF and attached metadata to document management system through KnowledgeTree's API

它精美的作品,只是步骤2 极其的缓慢 在某些类型的文档。它卷的权利,通过基本固定宽度的文本报告,但是丢了几个标志、行和其他无法阅读内容,它有时可以花几分钟在一个页面上。更不用说事实上,它可以重复达到4次,如果它试图重新调整。相比之下,软件封装有扫描仪的使用。OCR,并且可以紧缩的50多个网页在不到一分钟,照顾的页面布局和文本的方向几乎完全(我意识到这就是为什么发成本资金)。不幸的是,使用这个扫描软件的更复杂的用户使用,并且只涵盖了步骤1-3月。

我的问题是我是否应该接近这种方式不同,也许通过分离OCR/upload从扫描接口完全,如果有任何OCR包或其他解决方案我可以俯瞰,可以集成到蟒蛇的应用程序。将事实上,我打电话给外部应用程序做的工作,导致性能的问题?

无论我在这里做的,它是重要的,我已经控制步骤4,由于要求用户手动设置类型和元数据为每个上传文件可能是一个问题。

有帮助吗?

解决方案

这个问题,你们有的是,魔方是一个OCR引擎,不页版面分析软件。的 魔方的网站 说3.0版将很可能包括网页的布局分析。

我知道在以前的版本中,它只有很好地响应,如果有一个单列的文本。

我认为你需要放在一个步骤1.5会做一些布局的分析,并试图找到块的图像、标志、无法辨认的文本。

你可能想看看 OCRfeeder, ,看到他的解决方案。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top