cadena que parte en los límites probables de palabras en inglés

https://stackoverflow.com/questions/2258588

text-analysis

20-09-2019
|

Pregunta

Hace poco acostumbrado función de OCR de Adobe Acrobat Pro para procesar un diccionario de kanji japonés. La calidad general de la salida es generalmente bastante mejor de lo que esperaba, pero límites de palabras en inglés las partes del texto a menudo se han perdido. Por ejemplo, aquí está una línea de mi archivo:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

Podría seguir todo e inserte los límites de las palabras que faltan en todas partes, pero esto sería añadir a lo que ya es una tarea importante. Tengo la esperanza de que podría existir software que puede analizar el texto como este, donde algunas de las palabras corren juntos, y dividir el texto en los límites de palabra probables. ¿Hay un envase de este tipo?

Estoy usando Emacs, por lo que sería extra-dulce si el paquete en cuestión eran ya un paquete de Emacs o podría integrarse fácilmente en Emacs, por lo que yo podría simplemente poner mi cursor en una línea como la arriba y invocar repetidamente algún comando que se divide la línea en los límites de palabra con el fin de la corrección probable decreciente.

Solución 2

No pude encontrar nada tampoco, y terminó yendo con un enfoque interactivo .

Otros consejos

No tengo conocimiento de nada de lo que ya existe.

El método más sencillo, simplemente se corresponde con el conjunto de palabras más largas que figuran en la cadena en un diccionario. Por supuesto que podría haber muchas palabras, lo que tendría que hacer planes para todas las combinaciones y permutaciones. Es computacionalmente caro que hacerlo de esta manera, pero bastante rápido para escribir.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow