Kreuzvalidierung für C5.0 -Algorithmus

https://datascience.stackexchange.com/questions/6304

16-10-2019
|

Frage

Ich möchte die k-fache Kreuzvalidierung in R für C5.0-Algorithmus ausprobieren.

Das Folgende ist der Code, den ich verwende. Kann mir jemand vorschlagen, wie ich auch K-Fold einschließen kann?

Classifi_c5.0 <- c5.0 (Ziel ~., Data = Training_data_smoted, Trails = 500, Control = C5.0Control (mincases = mincases_count, noglobalpruning = false))

Ist es erforderlich, eine k-fache Kreuzvalidierung für zufälligen Wald zu führen?

Lösung

Ich würde hier sagen, dass die Kreuzvalidierung hier nicht erforderlich ist, da die Mehrfachpartitionierung der Daten und Variablen bereits in zufälligen Wäldern impliziert ist. Aber es ist immer noch eine gute Praxis, ein Testset zu halten, das sich vom Trainingssatz unterscheidet. Dies liegt hauptsächlich daran, dass Sie möglicherweise Änderungen in Ihrem zufälligen Wald einführen, um die Leistung der Testsätze insgesamt zu verbessern, wodurch die Verzerrung eingeführt wird, die die zufälligen Wälder überwinden möchten. Wenn Sie also einen Teil Ihrer Daten zurückgehalten und die endgültige Leistung des HF beurteilt haben, das nur im Vorhersageschritt festgelegt ist, dann ist es in Ordnung.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange