Frage

Ist Latent Semantic Indexing (LSI) eine statistische Klassifikation Algorithmus? Warum oder warum nicht?

Im Grunde genommen, ich versuche, herauszufinden, warum Wikipedia für statistische Klassifikation tut nicht LSI erwähnen. Ich bin nur in diese Sachen bekommen und ich versuche, zu sehen, wie all die verschiedenen Ansätze für etwas miteinander in Beziehung stehen zu klassifizieren.

War es hilfreich?

Lösung

Nein, sie sind nicht ganz gleich. Statistische Systematik soll Elemente in Kategorien trennen so sauber wie möglich -., Um eine saubere Entscheidung darüber, ob Artikel X ist wie die Einzelteile in der Gruppe A oder der Gruppe B, zum Beispiel

LSI soll den Grad, zeigen, welche Elemente sind ähnlich oder verschieden sind und vor allem, finden Gegenstände, die einen Grad der Ähnlichkeit zu einem bestimmten Punkt zeigen. Dies ist zwar ähnlich , es ist nicht ganz dasselbe.

Andere Tipps

LSI / LSA ist schließlich eine Technik für die Dimensionsreduktion , und in der Regel in Verbindung mit einem nächsten Nachbarn-Algorithmus, um es ein in Klassifikationssystem. Daher an sich, es ist nur ein Weg von „Indizierung“ die Daten in niedriger Dimension SVD verwendet wird.

Haben Sie lesen über LSI auf Wikipedia ? Er sagt, es Matrix-Faktorisierung verwendet ( SVD ), was wiederum manchmal in der Klassifizierung verwendet wird.

Der primäre Unterschied in Maschinelles Lernen ist zwischen „überwachen“ und „unbeaufsichtigt“ Modellierung.

In der Regel werden die Worte „statistische Klassifikation“ zu beaufsichtigten Modelle beziehen, aber nicht immer.

Mit wachten Methoden des Trainingssatz enthält ein „Ground-Truth“ Label, das Sie ein Modell bauen zu prognostizieren. Wenn Sie das Modell zu bewerten, ist das Ziel, die beste Vermutung an (oder Wahrscheinlichkeitsverteilung) die wahre Etikett vorherzusagen, die Sie nicht zum Zeitpunkt der Auswertung haben. Oft gibt es eine Performance-Metrik und es ist ganz klar, was das Recht gegen falsche Antwort ist.

Unüberwachte Klassifikationsverfahren versuchen, eine große Anzahl von Datenpunkten gruppieren, die auf komplizierte Weise in eine kleinere Anzahl von „ähnlichen“ Kategorien variieren erscheinen. Daten in jeder Kategorie sollten in einer Art ‚interessant‘ oder ‚tief‘ Art und Weise ähnlich sein. Da es kein „Ground Truth“ ist, können Sie nicht ‚richtig oder falsch‘, sondern ‚mehr‘ vs ‚weniger‘ interessant oder nützlich bewerten.

In ähnlicher Auswertungszeit können Sie neue Beispiele stellen in potentiell einen des Cluster (klare Klassifikation) oder irgendeine Art von Gewichtung geben, wie ähnlich oder anders aussieht wie die „Urform“ des Clusters zu quantifizieren.

So in gewisser Weise überwacht und unüberwachten Modelle können etwas ergeben, das eine „Vorhersage“, Vorhersage der Klasse / Cluster-Label, aber sie sind in sich anders.

Oft ist das Ziel eines unbeaufsichtigten Modells ist intelligenter und kraftvoll kompakte Eingänge für ein nachfolgendes beaufsichtigten Modell zur Verfügung zu stellen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top