Pregunta

Estoy tratando de utilizar el modelado tema con Mallet pero tiene alguna duda.

¿Cómo sé cuándo tengo que reconstruir el modelo? Por ejemplo tengo esta cantidad de documentos que se arrastró desde la web, utilizando el modelado tema proporcionada por Mallet que podría ser capaz de crear los modelos y documentos Deducir con él. Pero las horas extraordinarias, con nuevos datos que me arrastré, pueden aparecer nuevos sujetos. En ese caso, ¿cómo sé si debería reconstruir el modelo desde el principio hasta el actual?

Yo estaba pensando en hacerlo para los documentos que se arrastró cada mes. Por favor alguien puede aconsejar?

Por lo tanto, es el modelado tema más adecuado para el texto debajo de una cantidad fija de temas (el parámetro de entrada k, n. De temas). Si no, ¿cómo es lo que realmente determinar qué número de usar?

¿Fue útil?

Solución

Las respuestas a sus preguntas dependen en gran medida del tipo de datos que está trabajando y el tamaño del corpus.

En cuanto a la frecuencia, me temo que vas a tener que estimar la frecuencia con que sus datos cambia de manera significativa y remodelación a ese ritmo. Se podría empezar con una semana y ver si los nuevos datos conducen a un modelo muy diferente. Si no, pruebe dos semanas y así sucesivamente.

El número de temas que seleccione está determinado por lo que usted está buscando en el modelo. Cuanto más alto sea el número, más preciso de los resultados. Si desea una visión general de lo que está en su cuerpo, podría seleccionar decir 10 temas. Para un vistazo más de cerca, se puede usar 200 o algún otro número adecuadamente alta.

Espero que ayude.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top