Domanda

Immaginiamo, siamo in grado di costruire una tabella delle statistiche, quanto ogni parola è usata in un testo inglese o un libro. Siamo in grado di raccogliere statistiche per ogni testo / libro in libreria. Qual è il modo più semplice per confrontare queste statistiche con l'altro? Come possiamo trovare gruppo / cluster di testi con lessico molto statisticamente simili?

È stato utile?

Soluzione

In primo luogo, avresti bisogno di normalizzare il lessico (cioè in modo che entrambi i lessici hanno il stesso vocabolario).

allora si potrebbe utilizzare una somiglianza metrica come il Hellenger distanza o il coseno di similitudine di confrontare i due lessici.

Può anche essere una buona idea di guardare in pacchetti di apprendimento della macchina, come Weka .

Questo libro è una fonte eccellente per l'apprendimento automatico e si può trovare utile.

Altri suggerimenti

Vorrei iniziare a vedere quello che doveva offerta Lucene (http://lucene.apache.org/java/docs/index.html). Dopo che avrete bisogno di utilizzare una macchina metodo e sguardo apprendimento a http://en.wikipedia.org/wiki / Information_retrieval .

Si potrebbe considerare Kullback Leibler distanza. Per riferimento, vedere a pagina 18 della copertina e Thomas:

Capitolo 2, copertura e Thomas

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top