Arbre de décision ou la régression logistique?

https://datascience.stackexchange.com/questions/6048

16-10-2019
|

Question

Je travaille sur un problème de classification. J'ai un ensemble de données contenant le même nombre de variables et des variables continues. Comment puis-je savoir quelle technique utiliser? entre un arbre de décision et une régression logistique?

Est-il juste de supposer que la régression logistique sera plus approprié pour la variable continue et l'arbre de décision sera plus approprié pour la variable continue + catégorique?

La solution

Longue histoire courte . faire ce que @untitledprogrammer dit, essayer les deux modèles et Recouper pour aider à choisir un

Les deux arbres de décision (en fonction de la mise en œuvre, par exemple C4.5) et la régression logistique devrait être en mesure de traiter les données continues et très bien. Pour la régression logistique, vous voulez votre variables .

Comme @untitledprogrammer mentionné, il est difficile de savoir a priori quelle technique sera mieux fondée que sur les types de fonctionnalités que vous avez, en continu ou autrement. Cela dépend vraiment de votre problème spécifique et les données que vous avez. (Voir No Free Lunch théorème )

Vous aurez envie de garder à l'esprit qu'un modèle de régression logistique est à la recherche d'une seule limite de décision linéaire dans votre espace de fonction, alors qu'un arbre de décision est le partitionnement essentiellement votre espace de représentation en demi-espaces en utilisant axis- alignés limites de décision linéaires. L'effet net est que vous avez une limite de décision non linéaire, peut-être plus d'un.

est agréable lorsque vos points de données ne sont pas facilement séparés par un seul hyperplan, mais d'autre part, les décisions des arbres sont si souples qu'ils peuvent être sujettes à surapprentissage. Pour lutter contre cela, vous pouvez essayer la taille. La régression logistique a tendance à être moins sensibles (mais pas à l'abri!) à surapprentissage.

Enfin, une autre chose à considérer est que les arbres de décision peuvent automatiquement prendre en compte les interactions entre les variables, par exemple $ Xy $ si vous avez deux caractéristiques indépendantes $ x $ et $ y $. Avec la régression logistique, vous devrez ajouter manuellement ces termes d'interaction vous.

Vous devez vous demander:

quel genre de limite de décision est plus logique dans votre problème particulier?
comment voulez-vous parti pris de l'équilibre et la variance?
y at-il des interactions entre mes fonctions?

Bien sûr, il est toujours une bonne idée d'essayer juste les deux modèles et faire la validation croisée. Cela vous aidera à savoir que l'on est plus susceptible d'avoir une meilleure erreur de généralisation.

Autres conseils

Essayez d'utiliser les deux arbres de régression et de décision. Comparer l'efficacité de chaque technique en utilisant un 10 pliage validation croisée. Bâton à celui avec une plus grande efficacité. Il serait difficile de juger quelle méthode serait un meilleur ajustement tout en sachant que votre ensemble de données est continue et, ou catégorique.

Cela dépend vraiment de la structure de la distribution sous-jacente de vos données. Si vous avez de bonnes raisons de croire que les données fournissent une approximation d'une distribution de Bernoulli, la régression logistique multinomiale effectuera bien et vous donner des résultats interprétables. Cependant, s'il existe des structures non linéaires dans la distribution sous-jacente, vous devriez sérieusement envisager une méthode non paramétrique.

Alors que vous pouvez utiliser un arbre de décision comme méthode non paramétrique, vous pourriez aussi envisager de regarder dans la génération d'un hasard Forest- cela génère essentiellement un grand nombre d'arbres de décision individuels de sous-ensembles des données et la classification de fin est le vote agglomérée tous les arbres. Une forêt aléatoire permet de vous donner une idée de la part de chaque variable contribue de prédiction à la réponse.

Un autre facteur à garder à l'esprit est l'intelligibilité. Si vous essayez juste de données Classifier, alors vous ne se soucient probablement pas sur les relations sous-jacentes entre les variables explicatives et de réponse. Toutefois, si vous êtes intéressé à tous dans une régression logistique interprétabilité multinomial est beaucoup plus facile à interpréter, les méthodes paramétriques en général, parce qu'ils font des hypothèses sur la distribution sous-jacente, vous dire de façon plus intuitive des relations interprétables.

Pour utiliser l'arbre de décision, vous devez transformer la variable continue en catégorique.

Une autre chose, la régression logistique est généralement utilisé pour prédire résultat en fonction de la probabilité.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange