Frage

Stellen wir uns vor, wir können eine Statistiktabelle erstellen, wie viel jedes Wort in einem englischen Text oder Buch verwendet wird. Wir können Statistiken für jeden Text/Buch in der Bibliothek sammeln. Was ist der einfachste Weg, um diese Statistiken miteinander zu vergleichen? Wie können wir Gruppen/Cluster von Texten mit sehr statistisch ähnlichem Lexikon finden?

War es hilfreich?

Lösung

Zuerst müssten Sie das Lexikon normalisieren (dh sicher, dass beide Lexika das haben gleich Wortschatz).

Dann könnten Sie eine Ähnlichkeitsmetrik wie die verwenden Hellenger Distanz oder der Kosinusähnlichkeit Um die beiden Lexonen zu vergleichen.

Es kann auch eine gute Idee sein, sich mit maschinellem Lernpaketen wie Pakete zu untersuchen, z. Weka.

Dieses Buch ist eine hervorragende Quelle für maschinelles Lernen und Sie können sie möglicherweise nützlich finden.

Andere Tipps

Ich würde zunächst sehen, was Lucene (http://lucene.apache.org/java/docs/index.html) zu bieten hat. Danach müssen Sie eine Methode für maschinelles Lernen verwenden und sich ansehen http://en.wikipedia.org/wiki/information_retrieval.

Sie könnten Kullback Leibler -Distanz betrachten. Als Referenz siehe Seite 18 von Cover und Thomas:

Kapitel 2, Cover und Thomas

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top