C # algoritmo para N-gramo
-
26-09-2019 - |
Pregunta
Tengo la intención de utilizar el código de n-gramas de este artículo . El algoritmo produce estos resultados tri-gram:
t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d
para el the quick red
texto
Sin embargo Wikipedia , considera que debe ser:
the qui k_r
he_ uic _re
e_q ick red
_qu ck_
(espacio indicado por ‘_’).
¿Cuál es la correcta? ¿Hay alguna otra aplicación C # por ahí?
Solución
El segundo ejemplo es la correcta.
ps. ¿Por qué se genera trigramas para el texto completo y no sólo para las palabras? ¿Cuál es tu caso de uso?
Otros consejos
La primera es la correcta. I utiliza carácter N-gramo en mi tesis. Debe mover hacia delante y pasar un carácter para cada paso. En esta condición, palabras similares se pueden encontrar.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow