Feature -Auswahl für Support -Vektormaschinen

https://datascience.stackexchange.com/questions/6590

16-10-2019
|

Frage

Meine Frage ist dreifach

Im Kontext von "kernorisierten" Unterstützungsvektormaschinen

Ist variabler/Merkmalsauswahl wünschenswert - zumal wir den Parameter C regulieren, um eine Überanpassung zu verhindern, und das Hauptmotiv für die Einführung von Kerneln in ein SVM besteht darin
Wenn die Antwort auf die erste Frage "Nein" lautet, dann würde sich die Antwort ändern, die man beachten sollte?
Gibt es gute Methoden, die versucht wurden, die Merkmalsreduzierung für SVMs in der Scikit -Learn -Bibliothek von Python zu bewirken? Ich habe die SelectFPR -Methode ausprobiert und suche Menschen mit Erfahrungen mit unterschiedlichen Methoden.

Lösung

Persönlich mag ich es, die Feature -Auswahl in zwei Teile zu teilen:

unbeaufsichtigte Feature -Auswahl
Übersichtliche Feature -Auswahl

Unbeaufsichtigte Feature -Auswahl sind Dinge wie Clustering oder PCA, bei denen Sie den am wenigsten redundanten Funktionen aus auswählen (oder Funktionen mit wenig Redundanz erstellen). Übersichtliche Feature -Auswahl sind Dinge wie Lasso, bei denen Sie die Funktionen mit den meisten prädiktiven Kraft auswählen.

Ich persönlich bevorzuge normalerweise das, was ich beaufsichtigte Feature -Auswahl nenne. Bei Verwendung einer linearen Regression würde ich also Funktionen basierend auf Lasso auswählen. Ähnliche Methoden existieren, um Spärlichkeit in neuronalen Netzwerken zu induzieren.

In der Tat sehe ich nicht, wie ich das in einer Methode mit Kernel machen würde. Sie sind also wahrscheinlich besser dran, was ich als unbeaufsichtigte Feature -Auswahl nenne.

BEARBEITEN: Sie haben auch nach der Regularisierung gefragt. Ich sehe die Regularisierung als hauptsächlich hilfreich, weil wir mit endlichen Proben arbeiten und der Trainings- und Testverteilungsverteilung immer etwas unterscheidet, und Sie möchten, dass Ihr Modell nicht überfasst wird. Ich bin mir nicht sicher, ob es die Notwendigkeit beseitigt, Funktionen zu vermeiden (wenn Sie tatsächlich zu viele haben). Ich denke, dass die Auswahl von Funktionen (oder das Erstellen einer kleineren Teilmenge davon) hilft, indem die Funktionen, die Sie haben, robuster sind und das Modell vermeiden, aus falschen Korrelationen zu lernen. Die Regularisierung hilft also, aber nicht sicher, ob es sich um eine vollständige Alternative handelt. Aber ich habe nicht gründlich genug darüber nachgedacht.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange