R Bosques aleatorios Importancia variable

https://stackoverflow.com/questions/736514

09-09-2019
|

Pregunta

Estoy intentando utilizar el paquete de bosques aleatorios para la clasificación en R.

Las Medidas de Importancia Variable enumeradas son:

puntuación media de importancia bruta de la variable x para la clase 0
puntuación media bruta de importancia de la variable x para la clase 1
MeanDecreaseAccuracy
MeanDecreaseGini

Ahora sé lo que estos "significan", ya que conozco sus definiciones.Lo que quiero saber es cómo usarlos.

Lo que realmente quiero saber es qué significan estos valores sólo en el contexto de qué tan precisos son, cuál es un buen valor, cuál es un mal valor, cuáles son los máximos y mínimos, etc.

Si una variable tiene un alto MeanDecreaseAccuracy o MeanDecreaseGini ¿Eso significa que es importante o no importante?Además, cualquier información sobre puntuaciones brutas también podría resultar útil.Quiero saber todo lo que hay que saber sobre estos números que sea relevante para su aplicación.

Una explicación que utilice las palabras "error", "suma" o "permutado" sería menos útil que una explicación más simple que no involucrara ninguna discusión sobre cómo funcionan los bosques aleatorios.

Por ejemplo, si quisiera que alguien me explicara cómo usar una radio, no esperaría que la explicación involucrara cómo una radio convierte las ondas de radio en sonido.

Solución

Una explicación que usa las palabras 'error', 'suma' o 'permutada' sería menos útil que una explicación más simple que no implicó ninguna discusión sobre cómo funciona los bosques aleatorios.

Como si quisiera que alguien me explique cómo usar una radio, no esperaría que la explicación involucre cómo una radio convierte las ondas de radio en sonido.

¿Cómo explicarías lo que "significan" los números en WKRP 100.5 FM sin entrar en los molestos detalles técnicos de las frecuencias de las ondas?Francamente, es difícil entender los parámetros y los problemas de rendimiento relacionados con los bosques aleatorios, incluso si comprende algunos términos técnicos.

Aquí está mi oportunidad de obtener algunas respuestas:

-puntuación media de importancia bruta de la variable x para la clase 0

-puntuación media bruta de importancia de la variable x para la clase 1

Simplificando desde el bosque aleatorio Página web, la puntuación de importancia bruta mide cuánto más útil que el azar es una variable predictiva particular para clasificar datos con éxito.

-MeanDisminuciónPrecisión

Creo que esto es sólo en el módulo R, y creo que mide en qué medida la inclusión de este predictor en el modelo reduce el error de clasificación.

-MeanDisminuciónGini

Gini se define como "desigualdad" cuando se utiliza para describir la distribución del ingreso de una sociedad, o una medida de "impureza de nodo" en una clasificación basada en árboles.Un Gini bajo (es decir,mayor disminución en Gini) significa que una variable predictora particular juega un papel más importante en la partición de los datos en las clases definidas.Es difícil de describir sin hablar del hecho de que los datos en los árboles de clasificación se dividen en nodos individuales en función de los valores de los predictores.No tengo tan claro cómo esto se traduce en un mejor rendimiento.

Otros consejos

Para su preocupación inmediata: los valores más altos significan que las variables son más importantes. Esto debería ser cierto para todas las medidas que menciona.

Los bosques aleatorios te brindan modelos bastante complejos, por lo que puede ser difícil interpretar las medidas de importancia. Si desea comprender fácilmente lo que están haciendo sus variables, no use RFS. Use modelos lineales o un árbol de decisión (sin emergencia) en su lugar.

Usted dijo:

Una explicación que usa las palabras 'error', 'suma' o 'permutada' sería menos útil que una explicación más simple que no implicó ninguna discusión sobre cómo funciona los bosques aleatorios.

Va a ser terriblemente difícil explicar mucho más que lo anterior a menos que cave y aprenda qué pasa con los bosques aleatorios. Supongo que te estás quejando del manual o de la sección del manual de Breiman:

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

Para descubrir cuán importante es una variable, la llenan con basura aleatoria ("permútelo"), luego vea cuánto disminuye la precisión predictiva. MeanDecreaseaccuracy y MeanDecreaseGini funcionan de esta manera. No estoy seguro de cuáles son los puntajes de importancia cruda.

La interpretabilidad es un poco difícil con Random Forests.Si bien RF es un clasificador extremadamente robusto, hace sus predicciones de manera democrática.Con esto quiero decir que construyes cientos o miles de árboles tomando un subconjunto aleatorio de tus variables y un subconjunto aleatorio de tus datos y construyes un árbol.Luego haga una predicción para todos los datos no seleccionados y guarde la predicción.Es robusto porque maneja bien los caprichos de su conjunto de datos (es decir, suaviza valores altos/bajos aleatoriamente, gráficos/muestras fortuitos, mide lo mismo de 4 maneras diferentes, etc.).Sin embargo, si tiene algunas variables altamente correlacionadas, ambas pueden parecer importantes ya que no siempre se incluyen en cada modelo.

Un enfoque potencial con bosques aleatorios puede ser ayudar a reducir sus predictores y luego cambiar a CART normal o probar el paquete PARTY para modelos de árboles basados en inferencia.Sin embargo, debe tener cuidado con los problemas de extracción de datos y con las inferencias sobre los parámetros.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow