Pregunta

Este papel contiene matrices de confusión para los errores ortográficos en un canal ruidoso.Se describe cómo corregir los errores condicional propiedades.

La probabilidad condicional de la computación está en la página 2, columna de la izquierda.En la nota 4, página 2, columna de la izquierda, los autores dicen:"Los caracteres de las matrices pueden ser fácilmente replicado, y son por lo tanto omitido en el apéndice." No puedo averiguar cómo pueden ser replicados!

Cómo replicar ellos?Necesito el original corpus?o, ¿los autores entienden que podría ser recalculadas a partir del material en el papel de sí mismo?

¿Fue útil?

Solución

Mirando el papel, sólo se necesita calcular el uso de un corpus, ya sea el mismo o uno relevantes para su aplicación.

En la reproducción de las matrices, se nota que le implícitamente definir dos diferentes chars matrices:un vector y un n-por-n de la matriz.Para cada personaje x, el vector chars contiene un recuento del número de veces que el personaje x ocurrió en el corpus.Para cada secuencia de caracteres xy, la matriz de chars contiene un recuento del número de veces que se produjo la secuencia en el corpus.

chars[x] representa un aspecto de x en el vector; chars[x,y] representa un aspecto de la secuencia xy en la matriz.Tenga en cuenta que chars[x] = la suma de más de chars[x,y] para cada valor de y.

Tenga en cuenta que su cuenta se basan en el 1988 AP Newswire corpus (disponible a partir de la LDC).Si usted no puede utilizar su exacta corpus, creo que no sería razonable para el uso de otro texto del mismo género (es decir,otro newswire corpus) y la escala de su cuenta, tales que se ajusten a los datos originales.Esto es, la frecuencia de un determinado personaje no debería variar demasiado de un texto a otro si están lo suficientemente similar, así que si tienes un corpus de 22 millones de palabras de newswire, se podían contar los caracteres en el texto y, a continuación, haga doble que ellos se aproximan a sus originales que cuenta.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top