Frage

ich ein Klassifikationsproblem in meiner Hand habe, die ich mit einem Maschine Lernalgorithmus ansprechen möchte (Bayes oder Markow wahrscheinlich, ist die Frage, unabhängig von dem Klassifikator verwendet werden). eine Reihe von Trainingsinstanzen gegeben, ich bin nach einem Weg, um die Leistung eines implementierten Klassifikator, mit der Einnahme von Datenüberanpassung Problem zu berücksichtigen.

messen

Das heißt: Da N [1..100] Trainingsmuster, wenn ich den Trainingsalgorithmus auf jeder der Proben durchgeführt, und verwenden diese sehr gleichen Proben Fitness zu messen, ist es zu einem Datenüberanpassung Problem stecken könnte -die Sichter werden die genauen Antworten für die Trainingsinstanzen wissen, ohne viel Aussagekraft aufweisen, wodurch die Fitness-Ergebnisse nutzlos.

Eine offensichtliche Lösung wäre, die Hand-markierten Proben in der Ausbildung seperating und Testproben; und ich möchte lernen, über Methoden, um die statistisch signifikanten Proben für die Ausbildung der Auswahl.

White Papers, Buch Zeiger und PDFs zu schätzen!

War es hilfreich?

Lösung

könnten Sie 10-fach Kreuzvalidierung für diese. Ich glaube, es ist ziemlich Standardansatz für die Klassifikationsalgorithmus Leistungsbewertung.

Die Grundidee ist Ihre Lernproben in 10 Untergruppen zu unterteilen. Verwenden Sie dann eine Teilmenge für Testdaten und andere für Zugdaten. Wiederholen Sie diesen Vorgang für jede Teilmenge und berechnen durchschnittliche Leistung am Ende.

Andere Tipps

Wie Herr Brownstone sagte 10-fache Kreuzvalidierung ist wahrscheinlich der beste Weg zu gehen. Vor kurzem hatte ich die Leistung von einer Reihe von verschiedenen Klassifizierer für das ich Weka zur Bewertung . Das eine API und eine Last von Tools, mit denen Sie leicht die Leistung von vielen verschiedenen Klassifizierer ermöglichen zu testen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top