Divisão de corda nos limites prováveis de palavras em inglês
-
20-09-2019 - |
Pergunta
Recentemente, usei o recurso OCR do Adobe Acrobat Pro para processar um dicionário kanji japonês. A qualidade geral da saída é geralmente um pouco melhor do que eu esperava, mas os limites das palavras nas partes ingleses do texto foram frequentemente perdidas. Por exemplo, aqui está uma linha do meu arquivo:
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
Eu poderia dar a volta e inserir os limites da palavra ausente em todos os lugares, mas isso seria adicionar ao que já é uma tarefa substancial. Espero que exista um software que possa analisar texto como este, onde algumas das palavras são executadas juntas e dividir o texto nos limites das palavras prováveis. Existe esse pacote?
Estou usando o Emacs, então seria extra-doce se o pacote em questão já fosse um pacote Emacs ou pudesse ser prontamente integrado ao EMACS, para que eu pudesse simplesmente colocar meu cursor em uma linha como o acima e invocar repetidamente alguns comando que divide a linha nos limites da palavra na ordem decrescente da provável correção.
Solução 2
Eu também não consegui encontrar nada, e acabei indo com mais abordagem interativa.
Outras dicas
Não tenho conhecimento de nada que já exista.
O método mais simples é simplesmente corresponder ao conjunto de palavras mais longas contidas em sua string com um dicionário. É claro que pode haver muitas palavras, então você teria que planejar todas as combinações e permutações. É computacionalmente caro fazê -lo dessa maneira, mas bastante rápido de escrever.