Divisão de corda nos limites prováveis de palavras em inglês

https://stackoverflow.com/questions/2258588

text-analysis

20-09-2019
|

Pergunta

Recentemente, usei o recurso OCR do Adobe Acrobat Pro para processar um dicionário kanji japonês. A qualidade geral da saída é geralmente um pouco melhor do que eu esperava, mas os limites das palavras nas partes ingleses do texto foram frequentemente perdidas. Por exemplo, aqui está uma linha do meu arquivo:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

Eu poderia dar a volta e inserir os limites da palavra ausente em todos os lugares, mas isso seria adicionar ao que já é uma tarefa substancial. Espero que exista um software que possa analisar texto como este, onde algumas das palavras são executadas juntas e dividir o texto nos limites das palavras prováveis. Existe esse pacote?

Estou usando o Emacs, então seria extra-doce se o pacote em questão já fosse um pacote Emacs ou pudesse ser prontamente integrado ao EMACS, para que eu pudesse simplesmente colocar meu cursor em uma linha como o acima e invocar repetidamente alguns comando que divide a linha nos limites da palavra na ordem decrescente da provável correção.

Solução 2

Eu também não consegui encontrar nada, e acabei indo com mais abordagem interativa.

Outras dicas

Não tenho conhecimento de nada que já exista.

O método mais simples é simplesmente corresponder ao conjunto de palavras mais longas contidas em sua string com um dicionário. É claro que pode haver muitas palavras, então você teria que planejar todas as combinações e permutações. É computacionalmente caro fazê -lo dessa maneira, mas bastante rápido de escrever.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow

Divisão de corda nos limites prováveis ​​de palavras em inglês

Divisão de corda nos limites prováveis de palavras em inglês