Frage

Ich bin mit der Explorer-Funktion von Weka für die Klassifizierung.

Also ich meine .arff-Datei haben, mit 2 Funktionen von numerischen Wert, und meine Klasse ist eine binäre 0 oder 1 (zB {0,1}).

Beispiel:

@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}

@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....

ich diese .arff Datei laden, verwenden Sie das 10-fache Kreuzvalidierung (kein Testdatei) und NaiveBayes wählen, dann klassifizieren ich die Daten, und es gibt mir: 5 falsch beschriftet, 100 ordnungsgemäß gekennzeichnet. So weit so gut.

Nun, ich meine .arff Datei wesentlich ändern (geben völlig zufällige Werte für mein Feature-Attribut). Und die oben wiederholen, und ich erhalte die EXACT gleichen Statistiken bei der Klassifizierung.

Ich habe versucht, dies mit mehr Änderungen an meiner .arff Datei, verschiedene Klassifikationsalgorithmen. Dennoch EXACT gleiche Statistik (innerhalb des gleichen Algorithmus), egal welche Werte gebe ich meine .arff Datei.

Bin ich etwas falsch hier?

War es hilfreich?

Lösung

Es ist schwer, ohne weitere Informationen zu erzählen, aber ich habe zwei Vorschläge:

  1. Was sind die relativen Anteile der beiden Klassen? Ist es 5 bis 100? Viele Algorithmen funktioniert nicht gut mit sehr schiefen Klassenlabel Verteilungen.

  2. Nur eine Vermutung, aber versuchen Sie Ihre Klasse Etiketten von Zahlen in Strings (z ‚class1‘ und ‚klasse2‘) zu verändern. Weka nennt diese 'nominal' Attribute so vielleicht Nummern ist nicht erlaubt.

Andere Tipps

Auch: bedenken Sie, dass Kreuzvalidierung in der Benutzeroberfläche ziemlich schrecklich ist, wie sie nur den ursprünglichen Baum zeigen, jedenfalls (bevor sie falten in anderen Daten). Wenn Sie die letzten Bäume erzeugt wollen, müssen Sie die programmatische API. Ich schlage vor, mit einem geteilten Ausbildung / Testdatensatz.

Haben Sie zu ändern versucht,

@ATTRIBUTE class {1,0} 

mit

@ATTRIBUTE class {yes,no} 
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top