Разделение строки на вероятные границы английских слов
-
20-09-2019 - |
Вопрос
Недавно я использовал функцию оптического распознавания символов Adobe Acrobat Pro для обработки словаря японских кандзи.Общее качество вывода в целом немного лучше, чем я надеялся, но границы слов в английских частях текста часто теряются.Например, вот одна строка из моего файла:
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
Я мог бы повсюду вставить недостающие границы слов, но это усложнило бы и без того существенную задачу.Я надеюсь, что может существовать программное обеспечение, которое сможет анализировать такой текст, в котором некоторые слова совпадают, и разбивать текст на вероятные границы слов.Есть ли такой пакет?
Я использую Emacs, поэтому было бы очень приятно, если бы рассматриваемый пакет уже был пакетом Emacs или мог быть легко интегрирован в Emacs, чтобы я мог просто поместить курсор на строку, подобную приведенной выше, и неоднократно вызывать некоторые команда, разбивающая строку по границам слов в порядке убывания вероятной правильности.
Решение 2
Я тоже ничего не нашел и в итоге пошел к более интерактивный подход.
Другие советы
Я не знаю ничего из того, что уже существует.
Самый простой метод — просто сопоставить набор самых длинных слов, содержащихся в вашей строке, со словарем.Конечно, слов может быть много, поэтому вам придется спланировать все комбинации и перестановки.Сделать это таким способом требует больших вычислительных затрат, но написать его довольно быстро.