Pregunta

Tengo la intención de utilizar el código de n-gramas de este artículo . El algoritmo produce estos resultados tri-gram:

t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d

para el the quick red texto

Sin embargo Wikipedia , considera que debe ser:

the  qui  k_r
he_  uic  _re
e_q  ick  red
_qu  ck_

(espacio indicado por ‘_’).

¿Cuál es la correcta? ¿Hay alguna otra aplicación C # por ahí?

¿Fue útil?

Solución

El segundo ejemplo es la correcta.

ps. ¿Por qué se genera trigramas para el texto completo y no sólo para las palabras? ¿Cuál es tu caso de uso?

Otros consejos

La primera es la correcta. I utiliza carácter N-gramo en mi tesis. Debe mover hacia delante y pasar un carácter para cada paso. En esta condición, palabras similares se pueden encontrar.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top