Разделение строки на вероятные границы английских слов

https://stackoverflow.com/questions/2258588

text-analysis

20-09-2019
|

Вопрос

Недавно я использовал функцию оптического распознавания символов Adobe Acrobat Pro для обработки словаря японских кандзи.Общее качество вывода в целом немного лучше, чем я надеялся, но границы слов в английских частях текста часто теряются.Например, вот одна строка из моего файла:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

Я мог бы повсюду вставить недостающие границы слов, но это усложнило бы и без того существенную задачу.Я надеюсь, что может существовать программное обеспечение, которое сможет анализировать такой текст, в котором некоторые слова совпадают, и разбивать текст на вероятные границы слов.Есть ли такой пакет?

Я использую Emacs, поэтому было бы очень приятно, если бы рассматриваемый пакет уже был пакетом Emacs или мог быть легко интегрирован в Emacs, чтобы я мог просто поместить курсор на строку, подобную приведенной выше, и неоднократно вызывать некоторые команда, разбивающая строку по границам слов в порядке убывания вероятной правильности.

Решение 2

Я тоже ничего не нашел и в итоге пошел к более интерактивный подход.

Другие советы

Я не знаю ничего из того, что уже существует.

Самый простой метод — просто сопоставить набор самых длинных слов, содержащихся в вашей строке, со словарем.Конечно, слов может быть много, поэтому вам придется спланировать все комбинации и перестановки.Сделать это таким способом требует больших вычислительных затрат, но написать его довольно быстро.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow