testi in lingua inglese lessico confronto
-
22-10-2019 - |
Domanda
Immaginiamo, siamo in grado di costruire una tabella delle statistiche, quanto ogni parola è usata in un testo inglese o un libro. Siamo in grado di raccogliere statistiche per ogni testo / libro in libreria. Qual è il modo più semplice per confrontare queste statistiche con l'altro? Come possiamo trovare gruppo / cluster di testi con lessico molto statisticamente simili?
Soluzione
In primo luogo, avresti bisogno di normalizzare il lessico (cioè in modo che entrambi i lessici hanno il stesso vocabolario).
allora si potrebbe utilizzare una somiglianza metrica come il Hellenger distanza o il coseno di similitudine di confrontare i due lessici.
Può anche essere una buona idea di guardare in pacchetti di apprendimento della macchina, come Weka .
Questo libro è una fonte eccellente per l'apprendimento automatico e si può trovare utile.
Altri suggerimenti
Vorrei iniziare a vedere quello che doveva offerta Lucene (http://lucene.apache.org/java/docs/index.html). Dopo che avrete bisogno di utilizzare una macchina metodo e sguardo apprendimento a http://en.wikipedia.org/wiki / Information_retrieval .
Si potrebbe considerare Kullback Leibler distanza. Per riferimento, vedere a pagina 18 della copertina e Thomas: