我最近使用的Adobe Acrobat Pro的OCR功能来处理日语汉字词典。输出的综合素质比我预期的要更好普遍了不少,但在文字的英文部分单词边界往往被丢失。例如,这里是从我的文件中的一行:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

我可以去走一走,到处插入缺少的字边界,但是这将是增加什么已经是一个庞大的任务。我希望,有可能存在的软件,它可以分析文本就是这样,有些地方的话一起运行,并各执可能的词边界的文本。会出现这样的包?

我使用Emacs,所以它会是额外的甜,如果包装有问题已经Emacs的包或可以容易地集成到Emacs,这样我可以简单地把我的光标像上面和线反复调用一些命令其将在字边界线在降低可能正确性顺序。

有帮助吗?

解决方案 2

我无法找到任何东西,并结束了一个多的交互式方法

其他提示

我不知道的已经存在的东西。

的最简单的方法,简单地匹配该组中包含的针对词典字符串最长单词。当然,可能有许多的话,那么你就必须计划对所有排列组合。它的计算成本做这种方式,但相当快写。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top