Pregunta

Es necesario proporcionar a LDA una cantidad predefinida de temas latentes.Digamos que tengo un corpus de texto en el que planteo la hipótesis de que hay 10 temas principales, todos compuestos por 10 subtemas menores.Mi objetivo es poder definir proximidad entre documentos.

1) ¿Cómo estima el número de temas en la práctica?¿Empíricamente?¿Con otro método como el Proceso Jerárquico de Dirichlet (HDP)?

2) ¿Construyes varios modelos?¿Para temas mayores y menores?¿Hay alguna manera de capturar la estructura jerárquica de los temas?

¿Fue útil?

Solución

Existen muchos métodos para realizar esta optimización, es decir, elegir la cantidad óptima de temas para suministrar a LDA y se han escrito muchos artículos sobre el tema.

Varios de los que cabe destacar, cada uno de los cuales define métricas mediante las cuales evaluar los modelos LDA para la calidad de los temas, son:

  • Rajkumar Arun, V.Suresh, C.MI.Veni Madhavan y M.NORTE.Narasimha Murthy.2010.Sobre cómo encontrar el número natural de temas con asignación de Dirichlet latente:Algunas observaciones.En Avances en el descubrimiento de conocimientos y la minería de datos, Mohammed J.Zaki, Jeffrey Xu Yu, Balaraman Ravindran y Vikram Pudi (eds.).Springer Berlín Heidelberg, 391–402. http://doi.org/10.1007/978-3-642-13657-3_43
  • Cao Juan, Xia Tian, ​​Li Jintao, Zhang Yongdong y Tang Sheng.2009.Un método basado en densidad para la selección de modelos IDA adaptativos.Neurocomputación - 16º Simposio europeo sobre redes neuronales artificiales 2008 72, 7–9:1775–1781. http://doi.org/10.1016/j.neucom.2008.06.011
  • Romain Deveaud, Éric SanJuan y Patrice Bellot.2014.Modelado de conceptos latentes preciso y eficaz para la recuperación de información ad hoc.Documento numérico 17, 1:61–84. http://doi.org/10.3166/dn.17.1.61-84
  • tomás l.Griffiths y Mark Steyvers.2004.Encontrar temas científicos.Actas de la Academia Nacional de Ciencias 101, suppl 1:5228–5235. http://doi.org/10.1073/pnas.0307752101

Quiso la suerte que si estás usando R, estas métricas ya han sido compiladas para ti en un paquete conveniente llamado sintonización que proporciona un conjunto de utilidades y métricas para ayudar a ajustar la cantidad correcta de temas dentro de los modelos LDA.

Alternativamente, si estás usando Python, el gensim El paquete puede proporcionarle muchas utilidades para ayudarlo.Por ejemplo, el paquete implementa una métrica que llaman "coherencia del tema" y que, según afirman, corresponde aproximadamente a claridad de distinción de temas para un ser humano entre muchos otras utilidades para tuning.

Licenciado bajo: CC-BY-SA con atribución
scroll top