予想英語の単語の境界上の分割文字列

https://stackoverflow.com/questions/2258588

text-analysis

20-09-2019
|

質問

私は最近、日本の漢字辞典を処理するためには、Adobe Acrobat ProのOCR機能を使用していました。出力の全体的な品質は、私が望んだのだよりも一般的にかなり良いですが、テキストの英語部分における単語の境界は、多くの場合、失われています。たとえば、ここに私のファイルから1行があります：

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

私は周りに行くとどこでも不足している単語の境界を挿入するが、これはすでにかなりのタスクが何であるかに加えることになることができました。私は言葉のいくつかは、一緒に実行し、このようなテキストを、分析することができるソフトウェアが存在する可能性があることを期待して、と予想ワード境界にテキストを分割しています。このようなパッケージはありますか？

私は、Emacsを使用していますので、該当のパッケージがすでにEmacsのパッケージだったか、または容易にEmacsに統合することができれば、私は単純に上記のような行に私のカーソルを置くことができるように、それは、超甘いだろうと繰り返し可能性の正しさの順に単語の境界に線を分割し、いくつかのコマンドを呼び出します。

解決 2

私はどちらか何かを見つける、そしてより<のhref = "http://groups.google.com/group/gnu.emacs.help/browse_thread/thread/1b1ff620d89ee6db/910452e11493c735?q一緒に行くことになったことができませんでした=＃910452e11493c735" REL = "nofollowをnoreferrer">インタラクティブなアプローチのOCR eefacm + emacsの+。

他のヒント

私はすでに存在しているものを知らない思います。

最も簡単な方法は、単に辞書に対するあなたの文字列に含まれる最も長い単語のセットと一致しています。あなたはすべての組み合わせと順列を計画する必要があると思いますので、もちろん、多くの単語がある可能性があります。それは、このようにそれを行うには計算上高価だが、書くのはかなり速います。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow