Création des combinaisons de variables obligatoires pour le dessin par la forêt aléatoire

https://datascience.stackexchange.com/questions/1094

16-10-2019
|

Question

Problème

Pour ma tâche d'apprentissage machine, je crée un ensemble de facteurs prédictifs. Prédicteurs viennent en « paquets » - mesures multidimensionnelles (3 ou 4 - dimensions dans mon cas).

n'a de sens que si elle a été mesurée Le trou « paquet », et pris tous ensemble.

Le problème est, les différents « faisceaux » de prédicteurs peuvent être mesurés que pour petite partie de l'échantillon, et les parties ne pas recoupé nécessaires pour les différents « faisceaux ».

Comme les pièces sont petites, imputant conduit à la diminution considérable de la précision (catastrophical pour être plus précis)

Solutions possibles

Je pourrais créer des variables muettes qui marqueront si la mesure a eu lieu pour chaque variable. Le problème est, lorsque les forêts aléatoires des variables aléatoires dessine, il le fait individuellement.

Donc, il y a deux façons de résoudre ce problème: 1) Mélanger chaque « paquet » en un seul prédicteur. Cela est possible, mais il semble information sera perdue. 2) Faire des variables de tirage au sort de la forêt non pas individuellement, mais obligatoires « paquets ».

Problème de forêt aléatoire

forêt aléatoire dessine des variables au hasard, il prend des fonctionnalités qui sont inutiles (ou beaucoup moins utiles) sans autre de leur « paquet ». J'ai un sentiment qui conduit à une perte de précision.

Exemple

Par exemple, j'ai des variables a, a_measure, b, b_measure. Le problème est, les variables a_measure sens que si a variable est présente, même pour b. J'ai donc soit de combiner a a_measureand en une seule variable, ou faire forêt aléatoire dessiner les deux, dans le cas où au moins l'un d'entre eux est tiré.

Question

Quelles sont les meilleures solutions pratiques pour des problèmes lors de différents ensembles de prédicteurs sont mesurés pour les petites parties de la population globale, et ces ensembles de prédicteurs sont obligatoires dans « faisceaux »?

Merci!

La solution

Vous pouvez envisager Boosting gradient plutôt que les forêts aléatoires. Ils sont également une méthode basée sur des arbres ensemble, mais étant donné que cette méthode ne dimensions pas échantillons, il ne fonctionnera pas pour le problème de ne pas avoir un prédicteur utile disponible pour diviser à tout moment donné.

Les différentes implémentations de GBDT ont différentes façons de gérer les valeurs manquantes, qui fera une grande différence dans votre cas; Je crois que R ne se divise ternaires qui est susceptible de travailler bien.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange