Pregunta

Imaginemos que podemos construir una tabla de estadísticas, cuánto se usa cada palabra en algún texto o libro en inglés. Podemos recopilar estadísticas para cada texto/libro en la biblioteca. ¿Cuál es la forma más sencilla de comparar estas estadísticas entre sí? ¿Cómo podemos encontrar un grupo/grupo de textos con léxico estadísticamente similar?

¿Fue útil?

Solución

Primero, necesitaría normalizar el léxico (es decir, asegurarse de que ambos léxicos tengan el mismo vocabulario).

Entonces podrías usar una métrica de similitud como la Distancia de Hellenger o el similitud coseno para comparar los dos léxicos.

También puede ser una buena idea buscar paquetes de aprendizaje automático como Weka.

Este libro es una excelente fuente para el aprendizaje automático y es posible que la resulte útil.

Otros consejos

Comenzaría por ver lo que Lucene (http://lucene.apache.org/java/docs/index.html) tenía que ofrecer. Después de eso, deberá utilizar un método de aprendizaje automático y mirar http://en.wikipedia.org/wiki/information_retrieval.

Puede considerar la distancia de Kullback Leibler. Como referencia, vea la página 18 de Cover y Thomas:

Capítulo 2, Cover y Thomas

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top