Come si lavora con Latent Dirichlet Allocation in pratica

https://datascience.stackexchange.com/questions/16994

dirichlet

22-10-2019
|

Domanda

Una necessità di fornire LDA con un numero predefinito di argomenti latenti. Diciamo che ho un corpus di testo in cui ipotizzo ci sono 10 argomenti principali, tutte composte da 10 sottoargomenti minori. Il mio obiettivo è quello di essere in grado di definire vicinanza tra i documenti.

1) Come si fa a stimare il numero di argomenti in pratica? Empiricamente ? Con un altro metodo come Hierarchical Dirichlet Process (HDP)?

2) Si fa a costruire diversi modelli? Per maggiori e minori argomenti? C'è un modo per catturare la struttura gerarchica degli argomenti?

Soluzione

Ci sono molti metodi di esecuzione di questa Optimization, vale a dire, la scelta del numero ottimale di argomenti per la fornitura di LDA e molti documenti sono stati scritto sull'argomento.

Molti di nota, che ogni definiscono parametri in base ai quali valutare i modelli LDA per la qualità degli argomenti sono:

Rajkumar Arun, V. Suresh, C. E. Veni Madhavan, e M. N. Narasimha Murthy. 2010. trovare il numero naturale di argomenti con l'allocazione di Dirichlet latente: Alcune osservazioni. In I progressi nella scoperta della conoscenza e data mining, Mohammed J. Zaki, Jeffrey Xu Yu, Balaraman Ravindran e Vikram Pudi (eds.). Springer Berlin Heidelberg, 391-402. http://doi.org/10.1007/978-3-642-13657- 3_43
Cao Juan, Xia Tian, ??Li Jintao, Zhang Yongdong, e Tang Sheng. metodo basato densità 2009. Una per adattativo selezione del modello LDA. Neurocomputing - 16 ° Simposio Europeo sulle reti neurali artificiali 2008 72, 7-9: 1775-1781. http://doi.org/10.1016/j.neucom.2008.06.011
Romain Deveaud, Éric SanJuan, e Patrice Bellot. 2014. accurata ed efficace concetto di modellazione latente ad hoc recupero delle informazioni. Documento numérique 17, 1: 61-84. http://doi.org/10.3166/dn.17.1.61-84
Thomas L. Griffiths e Mark Steyvers. 2004. Trovare argomenti scientifici. Atti della National Academy of Sciences 101, suppl 1: 5228-5235. http://doi.org/10.1073/pnas.0307752101

Per fortuna ha voluto che, se si sta utilizzando R, questi parametri sono stati già compilato per voi in un comodo pacchetto chiamato ldatuning , che fornisce una serie di utility e metriche per aiuto sintonizzare il corretto numero di argomenti di modelli LDA.

In alternativa, se si sta utilizzando Python, il gensim pacchetto in grado di fornire con un sacco di programmi di utilità per assistere. Ad esempio, gli attrezzi pacchetto una metrica che chiamano "argomento coerenza" che sostengono corrisponde all'incirca chiarezza della distinzione soggetto per un essere umano tra i tanti altre utility per la sintonizzazione .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange