Frage

Ich habe ein Binärklassifizierungsproblem mit den AUC -Metriken. Ich habe eine zufällige Spaltung von 70% und 30% für Trainings- und Testsätze durchgeführt. Meine ersten Versuche, zufälligen Wald mit Standard-Hyperparametern zu verwenden, gab mir AUC 0,85 am Testsatz und 0,96 beim Trainingssatz. Das Modell übertreibt also. Aber die Punktzahl von 0,85 ist gut genug für mein Geschäft. Ich habe auch eine 5-fache Quervalidierung mit demselben Modell und denselben Hyperparametern durchgeführt, und die Ergebnisse der Testsätze waren konsequent etwas zwischen 0,84 und 0,86

Meine Frage ist: Kann ich an die Punktzahl 0,85 glauben und dieses Modell in der Produktion verwenden?

War es hilfreich?

Lösung

Ja, wenn Ihr 0,85 AUC für Ihren Anwendungsfall gut genug ist, ist dies ein gut genug Modell. Die Leistung im Trainingssatz zeigt an, wie gut Ihr Modell das Trainingssatz kennt. Das interessiert uns nicht wirklich, es ist genau das, was das Modell zu optimieren versucht. Die Leistung des Testsatzes ist ein Hinweis darauf, wie gut Ihr Modell verallgemeinert wird. Dies ist es, was uns interessiert, und Ihr Modell wird als Schätzung für Ihre Verallgemeinerung auf rund 0,85 erreicht. Unterschiede zwischen Training und Test sind die Norm. In diesem Fall könnte es sein, dass Sie eine bessere Leistung erzielen, indem Sie eine stärkere Regularisierung hinzufügen, aber wenn 0,85 gut genug sind, machen Sie es!

Andere Tipps

Meine ersten Versuche [...] gaben mir AUC 0,85 am Testsatz und 0,96 am Trainingssatz. Das Modell übertreibt also.

Das ist nicht ganz wahr.

Sehen, (fast) Jeder Schätzer hat einen besseren Vorhersagewert für die Trainingsdaten als in den Testdaten. Es bedeutet nicht, dass jeder Schätzer -Überfit.

Es ist jedoch normal, eine bessere Punktzahl im Trainingssatz zu haben, wie es der Schätzer ist gebaut darauf, was bedeutet, dass seine Parameter dank ihr geeignet sind. Ihr Schätzer kann jedoch mehr oder weniger in Ihre Trainingsdaten passen.

Nehmen wir Ihr zufälliges Forest-Beispiel. Wenn die Tiefe zu hoch ist, passen Sie zu viel zu den Trainingsdaten: Überfit. Wenn die Tiefe nicht hoch genug ist, ist es schwierig, auf andere Daten zu verallgemeinern: Sie Unterfit.

  1. Unterbeeindruckt: 0.96 im Zugset & 0.82 im Testsatz
  2. Mögliche gute Passform: 0.96 im Zugset & 0.89 im Testsatz
  3. Überanpassung: 0.96 im Zugset & 0.75 im Testsatz

Als guter datenwissenschaftler möchten Sie, dass Ihr Modell die Daten ausreicht, um gut zu verallgemeinern, aber nicht zu viel, um nicht zu überwältigen. Um zu kontrollieren, wie Ihr Modell verallgemeinert wird, verwendet man Kreuzvalidierungstechniken. Der Wert, den Sie erhalten

PS: Die Verwendung von Quervalidierung zu oft auf Testdaten macht Sie. in gewisser Weise, Lernen dieser Daten, während Sie sie auswählen, um Ihre Testergebnisse zu maximieren. Es kann zu einer Form der Überanpassung für zukünftige neue Daten führen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top