Frage

Ich möchte die Genauigkeit einer Methodik testen. Ich habe es ~ 400 Mal gelaufen und für jeden Lauf eine andere Klassifizierung erhalten. Ich habe auch die Grundwahrheit, dh die wirkliche Klassifizierung, gegen die ich testen kann.

Für jede Klassifizierung habe ich eine Verwirrungsmatrix berechnet. Jetzt möchte ich diese Ergebnisse aggregieren, um die allgemeine Verwirrungsmatrix zu erhalten. Wie kann ich es erreichen?

Darf ich alle Verwirrungsmatrizen zusammenfassen, um die insgesamt zu erhalten?

War es hilfreich?

Lösung

Ich kenne keine Standardantwort darauf, aber ich habe vor einigen Malen darüber nachgedacht und ich habe einige Ideen zu teilen.

Wenn Sie eine Verwirrungsmatrix haben, haben Sie mehr oder weniger ein Bild davon, wie Sie das Klassifizierungsmodell (Misclassify) Klassen einklassifizieren. Wenn Sie Klassifizierungstests wiederholen, haben Sie am Ende mehrere Verwirrungsmatrizen. Die Frage ist, wie man eine aussagekräftige Gesamtverwirrungsmatrix bekommt. Die Antwort hängt davon ab, was die Bedeutung von sinnvollem (Wortspiel beabsichtigt). Ich denke, es gibt keine einzige Version von Sinnvoll.

Eine Möglichkeit besteht darin, der groben Idee mehrerer Tests zu folgen. Im Allgemeinen testen Sie mehrmals etwas, um genauere Ergebnisse zu erzielen. Als allgemeines Prinzip kann man argumentieren, dass die Mittelung der Ergebnisse der mehreren Tests die Varianz der Schätzungen verringert, sodass dies infolgedessen die Genauigkeit der Schätzungen erhöht. Sie können natürlich auf diese Weise fortfahren, indem Sie die Position durch Position summieren und dann durch die Anzahl der Tests teilen. Sie können weiter gehen und anstatt nur einen Wert für jede Zelle der Verwirrungsmatrix zu schätzen, können Sie auch einige Konfidenzintervalle, T-Werte usw. berechnen. Das ist aus meiner Sicht in Ordnung. Aber es erzählt nur eine Seite der Geschichte.

Die andere Seite der Geschichte, die untersucht werden könnte, ist, wie stabil die Ergebnisse für dieselben Fälle sind. Um zu veranschaulichen, dass ich ein extremes Beispiel nehmen werde. Angenommen, Sie haben ein Klassifizierungsmodell für 3 Klassen. Angenommen, diese Klassen sind in gleichem Verhältnis. Wenn Ihr Modell in der Lage ist, eine Klasse perfekt und die anderen 2 Klassen mit zufälliger Leistung vorherzusagen, haben Sie am Ende 0,33 + 0,166 + 0,166 = 0,66 Fehlklassifizierungsverhältnis. Dies mag gut erscheinen, aber selbst wenn Sie eine einzige Verwirrungsmatrix ansehen, werden Sie nicht wissen, dass Ihre Leistung in den letzten 2 Klassen stark variiert. Mehrere Tests können helfen. Aber durchschnittlich die Verwirrungsmatrizen würden dies zeigen? Mein Glaube ist nicht. Die Mittelung liefert das gleiche Ergebnis mehr oder weniger, und mehrere Tests verringern nur die Varianz der Schätzung. Es sagt jedoch nichts über die wilde Instabilität der Vorhersage aus.

Eine andere Möglichkeit, die Verwirrungsmatrizen zu komponieren, würde für jede Instanz besser eine Vorhersagedichte beinhalten. Man kann diese Dichte aufbauen, indem man für jede Instanz zählt, wie oft sie eine bestimmte Klasse vorhergesagt wurde. Nach der Normalisierung haben Sie für jede Instanz eine Vorhersagedichte, eher ein einzelnes Vorhersageetikett. Sie können sehen, dass ein einzelnes Vorhersagetikett mit einer degenerierten Dichte ähnlich ist, bei der Sie für die vorhergesagte Klasse und 0 für die anderen Klassen für jede separate Instanz eine Wahrscheinlichkeit von 1 haben. Wenn Sie diese Dichten haben, kann man nun eine Verwirrungsmatrix aufbauen, indem die Wahrscheinlichkeiten aus jeder Instanz hinzugefügt und der entsprechenden Zelle der aggregierten Verwirrungsmatrix vorhergesagt werden.

Man kann argumentieren, dass dies ähnliche Ergebnisse wie die vorherige Methode liefern würde. Ich denke jedoch, dass dies manchmal der Fall sein könnte, häufig, wenn das Modell eine geringe Varianz aufweist, ist die zweite Methode weniger davon beeinflusst, wie die Proben der Tests gezogen werden, und somit stabiler und näher an der Realität.

Auch die zweite Methode könnte geändert werden, um eine dritte Methode zu erhalten, bei der man die Etikett mit der höchsten Dichte aus der Vorhersage einer bestimmten Instanz als Vorhersage zuweisen kann.

Ich habe diese Dinge nicht implementiert, aber ich habe vor, weiter zu studieren, weil ich glaube, dass es sich lohnt, einige Zeit zu verbringen.

Andere Tipps

Es gibt einige Möglichkeiten, Ihre "Master -Verwirrungsmatrix" zu erreichen.

  1. Fassen Sie alle Verwirrungsmatrizen zusammen: Wie Sie vorgeschlagen haben, führt dies zu einer Verwirrungsmatrix. Das Problem dabei ist, dass Sie die Summen nicht interpretieren können.

  2. Durchschnitt die Einträge. Diese Methode entspricht der Nummer eins, aber Sie teilen jeden Eintrag durch die Anzahl der Versuche (~ 400 in Ihrem Fall). Dies wäre meine bevorzugte Methode, da Sie dann tatsächlich jede Kategorie in einen (Mittelwert) +- (eine Fehlermessung) übersetzen und tatsächlich sehen können, welche Kategorien die flüchtigsten oder stabilsten sind. Vorsicht bei der Interpretation dieser "Fehlermessung".

  3. Melden Sie eine problemspezifische Messung der Verwirrungszahlen. Wenn Ihre Zahlen beispielsweise Ausreißer haben, würden die Mediane gegenüber Mitteln bevorzugt werden.

Es gibt auch andere Statistiken, die auch melden können. Sie können die Methode wiederholen, um einzelne Klassifizierungen im Auge zu behalten. Dann können wir andere wichtige Statistiken wie "% der Klassifikationen, die gleich bleiben und genau sind" usw.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top