Wählen Sie den Binärklassifizierungsalgorithmus

https://datascience.stackexchange.com/questions/384

16-10-2019
|

Frage

Ich habe ein Binärklassifizierungsproblem:

Ungefähr 1000 Muster im Trainingssatz
10 Attribute, einschließlich binär, numerisch und kategorisch

Welcher Algorithmus ist die beste Wahl für diese Art von Problem?

Standardmäßig werde ich mit SVM beginnen (vorläufige mit nominalen Attributen, die in binäre Merkmale konvertiert werden), da es für relativ saubere und nicht laute Daten als das Beste gilt.

Lösung

Es ist schwer zu sagen, ohne ein wenig mehr über Ihren Datensatz zu wissen und wie trennbar Ihr Datensatz auf Ihrem Feature -Vektor basiert, aber ich würde wahrscheinlich vorschlagen, dass extrem zufällige Wälder über Standard -Zufallswälder aufgrund Ihres relativ kleinen Stichprobensatzes verwendet werden.

Extreme zufällige Wälder sind den Standard -zufälligen Wäldern ziemlich ähnlich, mit einer Ausnahme, dass extrem zufällige Wälder zufällig Splits anstatt Spaltungen auf Bäumen zu optimieren. Anfangs scheint dies ein negativer Wert zu sein, aber es bedeutet im Allgemeinen, dass Sie eine deutlich bessere Verallgemeinerung und Geschwindigkeit haben, obwohl der AUC in Ihrem Trainingssatz wahrscheinlich etwas schlechter ist.

Die logistische Regression ist auch eine ziemlich solide Wette für diese Art von Aufgaben, obwohl ich mit Ihrer relativ geringen Dimensionalität und kleinen Stichprobengröße Sorgen über die Überanpassung machen würde. Möglicherweise möchten Sie K-Nearest-Nachbarn überprüfen, da es häufig mit geringen Dimensionalitäten sehr Willen ausführt, aber normalerweise keine kategorialen Variablen sehr gut behandelt.

Wenn ich einen auswählen müsste, ohne mehr über das Problem zu wissen, würde ich meine Wetten auf extrem zufälligen Wald sicherlich platzieren, da es Ihnen sehr wahrscheinlich eine gute Verallgemeinerung auf dieser Art von Datensatz bietet und auch eine Mischung aus numerischen und kategorialen Daten besser behandelt als die meisten anderen Methoden.

Andere Tipps

Bei niedrigen Parametern sollte eine ziemlich begrenzte Stichprobengröße und eine logistische Regression der Binärklassifikator ausreichend mächtig genug sein. Sie können einen fortgeschritteneren Algorithmus verwenden, aber es ist wahrscheinlich übertrieben.

Wenn kategoriale Variablen in der Mischung sind, greife ich nach zufälligen Entscheidungswäldern, da sie kategoriale Variablen direkt ohne die 1-von-N-Codierungstransformation behandelt. Dies verliert weniger Informationen.

Lineares SVM sollte ein guter Ausgangspunkt sein. Sich ansehen Dies Leitfaden für den richtigen Schätzer.

Ich würde nicht zuerst komplexe Methoden anwenden. Verwenden Sie zunächst schnellere einfache Ansätze (KNN, NBC usw.), führen Sie dann durch lineare Regression, logistische Regression, LDA, CART (RF), Kreg und dann bis zur kleinsten Quadrate SVM, Gradient -Aufstieg SVM, Anns und dann Metaheurustics (Greedy Heuristische Hügelklettern mit Gas, Schwarminformation, Ameisenkolonieoptimierung usw.)

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange