Domanda

Sto cercando di utilizzare la modellazione argomento con il maglio, ma hanno una domanda.

Come faccio a sapere quando ho bisogno di ricostruire il modello? Per esempio ho questa quantità di documenti ho strisciato dal web, usando la modellazione argomento fornito da Mallet potrei essere in grado di creare modelli e documenti di dedurre con esso. Ma gli straordinari, con i nuovi dati che ho strisciato, possono comparire nuovi soggetti. In tal caso, come faccio a sapere se devo ricostruire il modello, dall'inizio fino al corrente?

stavo pensando di farlo per i documenti ho strisciato ogni mese. Qualcuno può consigliare?

Quindi, è la modellazione argomento più adatto per il testo in un importo fisso di argomenti (il parametro di ingresso k, no. Di argomenti). Se no, come faccio davvero determinare il numero da usare?

È stato utile?

Soluzione

Le risposte alle tue domande dipendono in gran parte dal tipo di dati che si sta lavorando con e la dimensione del corpus.

Per quanto riguarda la frequenza, temo che dovrete semplicemente per stimare la frequenza di dati cambia in modo significativo e rimodellare a quel tasso. Si potrebbe iniziare con una settimana e vedere se i nuovi dati portano ad un modello significativamente differenti. In caso contrario, provare a due settimane e così via.

Il numero di argomenti si seleziona è determinato da ciò che stai cercando nel modello. Più alto è il numero, più capillare i risultati. Se si desidera una vasta panoramica di ciò che è nel vostro corpus, è possibile selezionare dire 10 argomenti. Per uno sguardo più da vicino, è possibile utilizzare 200 o un altro numero sufficientemente elevato.

Mi auguro che aiuta.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top