Hacer sobreajuste Random Forest?

https://datascience.stackexchange.com/questions/1028

16-10-2019
|

Pregunta

He estado leyendo todo sobre Bosques azar, pero en realidad no puedo encontrar una respuesta definitiva sobre el problema de sobreajuste. De acuerdo con el documento original de Breiman, no deben overfit al aumentar el número de árboles en el bosque, pero parece que no hay consenso acerca de esto. Esto me está creando cierta confusión sobre el tema.

Tal vez alguien más experto que yo me puede dar una respuesta más concreta o que me señale en la dirección correcta para comprender mejor el problema.

Solución

Cada algoritmo ML con alta complejidad puede overfit. Sin embargo, el PO está pidiendo si una de RF no se sobreajuste al aumentar el número de árboles en el bosque.

En los métodos generales, conjunto reduce la varianza de predicción a casi nada, lo que mejora la precisión del conjunto. Si definimos la varianza del error de generalización se espera de un modelo aleatorio individuo como:

aquí , la varianza del error de generalización se espera de un conjunto corresponde a:

donde p(x) es el coeficiente de correlación de Pearson entre las predicciones de dos modelos aleatorios formados en los mismos datos de dos semillas independientes. Si aumentamos el número de DT de la RF, mayor M, la varianza del conjunto disminuye cuando ρ(x)<1. Por lo tanto, la varianza de un conjunto es estrictamente menor que la varianza de un modelo individual.

En pocas palabras, el aumento del número de modelos aleatorios individuales en un conjunto nunca aumentará a la generalización de error.

Otros consejos

Es posible que desee comprobar validación cruzada - un sitio web stachexchange para muchas cosas, incluyendo el aprendizaje de máquina.

En particular, esta pregunta (con exactamente el mismo título) ya ha sido contestado varias veces. Compruebe estos enlaces: https://stats.stackexchange.com/search?q=random+forest+overfit

Pero yo le puede dar la respuesta corta a la misma: sí, lo hace sobreajuste, y, a veces es necesario para controlar la complejidad de los árboles en el bosque, o incluso podar cuando crecen demasiado - pero esto depende de la biblioteca se utiliza para la construcción de la selva. P.ej. en randomForest en I sólo se puede controlar la complejidad

El Bosque aleatoria hace sobreajuste.
El Bosque aleatoria no aumenta la generalización de error cuando se añaden más árboles para el modelo. La varianza generalización se va a cero con más árboles utilizados.

he hecho un experimento muy simple. He generado los datos sintéticos:

y = 10 * x + noise

Me entreno he dos modelos forestales aleatoria:

uno con árboles llenos
uno con árboles podados

El modelo con árboles llenos tiene un menor error de tren, pero error en la prueba más alta que el modelo con árboles podados. Las respuestas de ambos modelos:

Es una clara evidencia de sobreajuste. Entonces tomé las hiper-parámetros del modelo overfitted y comprobar el error al agregar en cada árbol de paso 1. Tengo la figura siguiente:

Como se puede ver el error sobreajuste no cambia cuando se añade más árboles pero el modelo se overfitted. Aquí está el enlace para el experimento que he hecho.

ESTRUCTURADO CONJUNTO DE DATOS - ERRORES> OOB ENGAÑOSA

he encontrado interesante caso de RF sobreajuste en mi práctica de trabajo. Cuando los datos se estructuran overfits RF en observaciones fuera de banda.

Detalle:

Trato de predecir los precios de la electricidad en el mercado spot de electricidad para cada sola hora (cada fila de conjunto de datos contiene precio y parámetros del sistema (carga, capacidades, etc.) para que sola hora).
precios de la electricidad se crean en lotes (24 precios en el mercado eléctrico creado en una fijación en un momento del tiempo).
Así obs fuera de banda para cada árbol son subconjuntos aleatorios del conjunto de horas, pero si usted predice próximas 24 horas que lo hacen todo a la vez (en un primer momento a obtener todos los parámetros del sistema, a continuación, a predecir 24 precios, entonces no es una fijación que produce esos precios), por lo que es más fácil hacer predicciones a fuera de banda, a continuación, durante todo el día siguiente. obs OOB no están contenidos en bloques de 24 horas, pero dispersan uniformemente, ya que existe una autocorrelación de los errores de predicción es más fácil de predecir precio para sola hora que falta entonces para el bloque entero de horas que faltan.

más fáciles de predecir, en caso de auto-correlación de error:
conocida, conocido, predicción, conocida, la predicción - OBB caso
uno más duro:
conocido, desconocido, desconocido, la predicción, la predicción - caso real predicción mundo

espero es interesante

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange