La creación de combinaciones de variables obligatorias para la elaboración de bosque aleatorio

https://datascience.stackexchange.com/questions/1094

16-10-2019
|

Pregunta

Problema:

Para mi tarea de aprendizaje de máquina, creo un conjunto de predictores. Predictores vienen en "paquetes" - mediciones multidimensionales (3 o 4 - dimensional en mi caso).

El agujero "paquete" tiene sentido sólo si se ha medido, y tomado todos juntos.

El problema es, diferentes 'paquetes' de predictores se puede medir solamente para la pequeña parte de la muestra, y las partes no lo hacen de intersección necesario para diferentes 'paquetes'.

Como piezas son pequeñas, imputar conduce a considerable disminución de la precisión (catastrófico para ser más exactos)

Posibles soluciones

podría crear variables ficticias que marcarían si la medición se ha realizado para cada variable. El problema es, cuando los bosques al azar dibuja variables aleatorias, lo hace de forma individual.

Así que hay dos formas básicas para resolver este problema: 1) Combinar cada "paquete" en un solo predictor. Eso es posible, pero parece que la información se perderá. 2) Hacer las variables forestales sorteo aleatorio no individualmente, sino por "paquetes" obligatorios.

Problema de los bosques al azar

A medida que los bosques al azar dibuja las variables al azar, toma características que no sirven para nada (o mucho menos útiles) sin otro de su "paquete". Tengo la sensación que conduce a una pérdida de precisión.

Ejemplo

Por ejemplo, tengo las variables a, a_measure, b, b_measure. El problema es, las variables a_measure tiene sentido sólo si la variable a está presente, lo mismo para b. Así que o bien tienen que combinar a a_measureand en una variable, o hacer al azar forestal dibujar tanto, en caso de que al menos se dibuja uno de ellos.

Pregunta

¿Cuáles son las mejores soluciones prácticas para los problemas cuando se miden diferentes conjuntos de predictores para las pequeñas partes de la población en general, y estos conjuntos de predictores vienen en "paquetes" obligatorios?

Gracias!

¿Fue útil?

Solución

You may want to consider gradient boosted trees rather than random forests. They're also an ensemble tree-based method, but since this method doesn't sample dimensions, it won't run in to the problem of not having a useful predictor available to split on at any particular time.

Different implementations of GBDT have different ways of handling missing values, which will make a big difference in your case; I believe R does ternary splits which is likely to work fine.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange