Choisir algorithme de classification binaire

https://datascience.stackexchange.com/questions/384

16-10-2019
|

Question

J'ai un problème de classification binaire:

Environ 1000 échantillons dans le jeu de formation
10 attributs, y compris binaire, numérique et catégorique

Quel algorithme est le meilleur choix pour ce type de problème?

Par défaut, je vais commencer par SVM (valeurs d'attributs nominaux préliminaires ayant converties en fonctions binaires), car il est considéré comme le meilleur pour les données relativement propres et non bruyants.

La solution

Il est difficile de dire sans le savoir un peu plus sur votre ensemble de données, et comment séparer votre ensemble de données est basé sur votre vecteur de caractéristiques, mais je suggère probablement l'utilisation extrême forêt aléatoire sur les forêts aléatoires standard en raison de votre ensemble d'échantillons relativement faible.

Extreme forêts aléatoires sont assez similaires aux forêts aléatoires standard avec une exception au lieu d'optimiser la séparation sur les arbres, forêt aléatoire extrême fait se divise au hasard. Dans un premier temps cela semble comme un négatif, mais il en général signifie que vous avez beaucoup mieux généralisation et la vitesse, bien que la CUA sur votre ensemble de formation est susceptible d'être un peu moins bien.

La régression logistique est également un pari assez solide pour ce genre de tâches, mais avec votre dimensionnalité relativement faible et petite taille de l'échantillon, je serais inquiet au sujet surapprentissage. Vous pouvez vérifier à l'aide de K plus proches voisins car souvent fonctionne très bas vont avec dimensionalités, mais il ne gère pas généralement très bien variables.

Si je devais choisir un sans en savoir plus sur le problème que je voudrais certainement placer mes paris sur la forêt au hasard extrême, car il est très susceptible de vous donner une bonne généralisation sur ce genre de jeu de données, et il gère également un mélange de numérique et les données catégorielles mieux que la plupart des autres méthodes.

Autres conseils

Pour les paramètres bas, assez limitée taille de l'échantillon, et un classificateur binaire régression logistique devrait être beaucoup assez puissant. Vous pouvez utiliser un algorithme plus avancé, mais il est probablement excessif.

Lorsque les variables qualitatives sont dans le mélange, je tends la main vers les forêts de décision au hasard, car il gère les variables qualitatives directement sans 1-de-n codant pour la transformation. Cela perd moins d'informations.

linéaire SVM devrait être un bon point de départ. Jetez un oeil à ce guide pour choisir l'estimateur droit.

ne recommande pas l'utilisation de méthodes complexes en premier. Utiliser des approches plus rapides simples initialement (KNN, NBC, etc.), puis les progrès par régression linéaire, la régression logistique, LDA, CART (RF), KREG, puis moindres carrés SVM, SVM gradient ascension, ANNs, puis metaheurustics (gourmand escalade heuristique colline Gazeuse, l'intelligence en essaim, ant optimisation des colonies, etc.)

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange