R Importance variable des forêts aléatoires

https://stackoverflow.com/questions/736514

09-09-2019
|

Question

J'essaie d'utiliser le package des forêts aléatoires pour la classification dans R.

Les mesures d'importance variable énumérées sont:

Score d'importance brute moyenne de la variable x pour la classe 0
Score d'importance brute moyenne de la variable x pour la classe 1
MeanDecreaseAccuracy
MeanDecreaseGini

Maintenant, je sais ce que ceux-ci "signifient" comme je connais leurs définitions. Ce que je veux savoir, c'est comment les utiliser.

Ce que je veux vraiment savoir, c'est ce que ces valeurs signifient uniquement dans le contexte de leur précision, quelle est une bonne valeur, quelle est une mauvaise valeur, quels sont les maximums et les minimums, etc.

Si une variable a un haut MeanDecreaseAccuracy ou MeanDecreaseGini Cela signifie-t-il qu'il est important ou sans importance? Toutes les informations sur les scores brutes pourraient également être utiles. Je veux savoir tout ce qu'il y a à savoir sur ces chiffres pertinents pour leur application.

Une explication qui utilise les mots «erreur», «sommation» ou «permuté» serait moins utile qu'une explication plus simple qui n'impliquait aucune discussion sur le fonctionnement des forêts aléatoires.

Comme si je voulais que quelqu'un m'explique comment utiliser une radio, je ne m'attendrais pas à ce que l'explication implique comment une radio convertit la radio se fait en sorte de son.

La solution

Une explication qui utilise les mots «erreur», «sommation» ou «permuté» serait moins utile qu'une explication plus simple qui n'impliquait aucune discussion sur le fonctionnement des forêts aléatoires.

Comme si je voulais que quelqu'un m'explique comment utiliser une radio, je ne m'attendrais pas à ce que l'explication implique comment une radio convertit la radio se fait en sorte de son.

Comment expliqueriez-vous ce que les chiffres dans WKRP 100,5 FM signifient "sans entrer dans les détails techniques embêtants des fréquences d'ondes? Des paramètres franchement et des problèmes de performances connexes avec des forêts aléatoires sont difficiles à comprendre même si vous comprenez certains termes techniques.

Voici ma photo sur quelques réponses:

-Mean Score d'importance brut de la variable x pour la classe 0

-Mean Score d'importance brut de la variable x pour la classe 1

Simplification de la forêt aléatoire page web, le score d'importance brut mesure combien plus utile qu'au hasard une variable prédictive particulière consiste à classer avec succès les données.

-MécesseuraCuracy

Je pense que ce n'est que dans le Module R, et je crois qu'il mesure la quantité d'inclusion de ce prédicteur dans le modèle réduit l'erreur de classification.

-Méède enceintegini

Gini est défini comme «l'iniquité» lorsqu'il est utilisé pour décrire la distribution des revenus d'une société, ou une mesure de «l'impureté de nœuds» dans la classification basée sur les arbres. Un gini faible (c'est-à-dire une plus élevée de la durée dans Gini) signifie qu'une variable prédictive particulière joue un plus grand rôle dans la partition des données dans les classes définies. C'est difficile à décrire sans parler du fait que les données dans les arbres de classification sont divisées à des nœuds individuels en fonction des valeurs des prédicteurs. Je ne suis pas si clair sur la façon dont cela se traduit par de meilleures performances.

Autres conseils

Pour votre préoccupation immédiate: les valeurs plus élevées signifient que les variables sont plus importantes. Cela devrait être vrai pour toutes les mesures que vous mentionnez.

Les forêts aléatoires vous donnent des modèles assez complexes, il peut donc être difficile d'interpréter les mesures d'importance. Si vous voulez facilement comprendre ce que font vos variables, n'utilisez pas RFS. Utilisez à la place des modèles linéaires ou un arbre de décision (non-sensble).

Tu as dit:

Une explication qui utilise les mots «erreur», «sommation» ou «permuté» serait moins utile qu'une explication plus simple qui n'impliquait aucune discussion sur le fonctionnement des forêts aléatoires.

Il va être terriblement difficile d'expliquer beaucoup plus que ce qui précède, sauf si vous creusez et apprenez les forêts aléatoires. Je suppose que vous vous plaignez du manuel ou de la section du manuel de Breiman:

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimpimp

Pour déterminer l'importance d'une variable, ils le remplissent de déchets aléatoires («permuter»), puis voyez à quel point la précision prédictive diminue. MeandeceaseAcuracy et Meandereasegini fonctionnent de cette façon. Je ne sais pas quelles sont les scores d'importance brute.

L'interprétabilité est un peu difficile avec des forêts aléatoires. Bien que RF soit un classificateur extrêmement robuste, il fait ses prédictions démocratiquement. Je veux dire par là que vous construisez des centaines ou des milliers d'arbres en prenant un sous-ensemble aléatoire de vos variables et un sous-ensemble aléatoire de vos données et construire un arbre. Faites ensuite une prédiction pour toutes les données non sélectionnées et enregistrez la prédiction. C'est robuste car il traite bien des caprices de votre ensemble de données (c'est-à-dire qu'il lisse sur des valeurs aléatoires / faibles, des parcelles / échantillons fortuit, mesurant la même chose 4 façons différentes, etc.). Cependant, si vous avez des variables hautement corrélées, les deux peuvent sembler importants car ils ne sont pas toujours inclus dans chaque modèle.

Une approche potentielle avec des forêts aléatoires peut être d'aider à réduire vos prédicteurs, puis de passer à un panier ordinaire ou d'essayer le paquet de fête pour les modèles d'arbres basés sur l'inférence. Cependant, vous devez vous méfier des problèmes d'exploration de données et faire des inférences sur les paramètres.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow