Création des combinaisons de variables obligatoires pour le dessin par la forêt aléatoire
-
16-10-2019 - |
Question
Problème
Pour ma tâche d'apprentissage machine, je crée un ensemble de facteurs prédictifs. Prédicteurs viennent en « paquets » - mesures multidimensionnelles (3 ou 4 - dimensions dans mon cas).
n'a de sens que si elle a été mesurée Le trou « paquet », et pris tous ensemble.
Le problème est, les différents « faisceaux » de prédicteurs peuvent être mesurés que pour petite partie de l'échantillon, et les parties ne pas recoupé nécessaires pour les différents « faisceaux ».
Comme les pièces sont petites, imputant conduit à la diminution considérable de la précision (catastrophical pour être plus précis)
Solutions possibles
Je pourrais créer des variables muettes qui marqueront si la mesure a eu lieu pour chaque variable. Le problème est, lorsque les forêts aléatoires des variables aléatoires dessine, il le fait individuellement.
Donc, il y a deux façons de résoudre ce problème: 1) Mélanger chaque « paquet » en un seul prédicteur. Cela est possible, mais il semble information sera perdue. 2) Faire des variables de tirage au sort de la forêt non pas individuellement, mais obligatoires « paquets ».
Problème de forêt aléatoire
forêt aléatoire dessine des variables au hasard, il prend des fonctionnalités qui sont inutiles (ou beaucoup moins utiles) sans autre de leur « paquet ». J'ai un sentiment qui conduit à une perte de précision.
Exemple
Par exemple, j'ai des variables a
, a_measure
, b
, b_measure
.
Le problème est, les variables a_measure
sens que si a
variable est présente, même pour b
. J'ai donc soit de combiner a
a_measure
and en une seule variable, ou faire forêt aléatoire dessiner les deux, dans le cas où au moins l'un d'entre eux est tiré.
Question
Quelles sont les meilleures solutions pratiques pour des problèmes lors de différents ensembles de prédicteurs sont mesurés pour les petites parties de la population globale, et ces ensembles de prédicteurs sont obligatoires dans « faisceaux »?
Merci!
La solution
Vous pouvez envisager Boosting gradient plutôt que les forêts aléatoires. Ils sont également une méthode basée sur des arbres ensemble, mais étant donné que cette méthode ne dimensions pas échantillons, il ne fonctionnera pas pour le problème de ne pas avoir un prédicteur utile disponible pour diviser à tout moment donné.
Les différentes implémentations de GBDT ont différentes façons de gérer les valeurs manquantes, qui fera une grande différence dans votre cas; Je crois que R ne se divise ternaires qui est susceptible de travailler bien.