Técnicas de selección de características

https://datascience.stackexchange.com/questions/12382

16-10-2019
|

Pregunta

¿Es siempre una buena idea eliminar características que tienen información mutua alta entre sí y eliminar características que tienen información mutua muy baja con la variable objetivo? ¿Por qué o por qué no?

Solución

Hacer eso es una muy buena idea. El problema es que hacer eso es muy difícil.Selección de características es un NP-COMPLETO problema. El significado práctico, ya que no conocemos ningún algoritmo rápido que pueda seleccionar solo la característica necesaria.

En la otra dirección, omitir características que no tienen información mutua (MI) con el concepto pueden hacer que lance las características que más necesita. Hay casos en los que una sola característica es inútil, pero dadas más características se vuelve importante.

Considere un concepto que es el XOR de algunas características. Dadas todas las características, el concepto es totalmente predecible. Dado uno de ellos, tienes 0 mi.

Un ejemplo de la vida más real es mayor de edad. La fecha de nacimiento y la fecha de muerte te dan la edad. Uno de ellos tendrá una correlación muy baja (debido al aumento de la esperanza de vida).

En la práctica, omitir las características con MI bajo está bien. Muchos algoritmos de aprendizaje están usando MI para que no puedan usar las variables omitidas de todos modos. En cuanto a la selección en sí, hay muchos algoritmos, generalmente algoritmo de heurística o aproximación que son bastante útiles.

Otros consejos

Como con muchas cosas, depende. Los detalles de la relación de sus variables con el dominio que describen dictarán, e incluso entonces las relaciones pueden no ser intuitivas. Las características aparentemente dispar pueden tener un efecto significativo cuando se combinan en lo que se conoce como extracción de características.

Las técnicas de ingeniería de características automatizadas pueden ayudarlo a decidir qué características son significativas si tiene el tiempo y los recursos disponibles, particularmente cuando se trata de probar el impacto de las características combinadas. Además, algunos métodos tienen el beneficio de la selección de características integradas, en el que el algoritmo en sí tiende a disminuir el efecto de variables insignificantes, por ejemplo: regresión de lazo, árboles de decisión regularizados, bosques aleatorios, etc.

Aquí hay una buena imprimación: http://machinelearningmastery.com/an-introduction-to-fature-selection/

El hecho de que una característica sea redundante en presencia de otra, o no es lo suficientemente informativa como para describir la variable objetivo, no es necesariamente un signo de que esa característica no sea útil.

De hecho, puede ser el caso de que dicha característica pueda ser extremadamente informativa cuando se combina con otra, a pesar de no ser muy útil cuando se considera de forma aislada.

Por lo tanto, al aplicar métodos de selección de características, también debe considerar combinaciones de características.

Sin embargo, y como lo señaló otra respuesta a esta pregunta, encontrar la mejor combinación de características es un problema completo de NP. Por lo tanto, aplicar la selección de características a las características individuales puede ser una buena aproximación. Sin embargo, prefiero aplicar un enfoque codicioso (ver por ejemplo https://studentnet.cs.manchester.ac.uk/pgt/comp61011/goodprojects/shardlow.pdf Para obtener más información sobre el tema).

Editar para responder al comentario de OP:

a) La siguiente tabla muestra un ejemplo extremo de una característica que por sí sola es muy informativa, pero en combinación con otros es totalmente redundante (Feature_2). Este es un problema de regresión en el que estamos tratando de construir un modelo para predecir la variable de "salida" de "Feature_1" y "Feature_2".

| feature_1 | feature_2 | output |
|-----------|-----------|--------|
|         1 |         1 |    0.1 |      
|         2 |         2 |    0.2 |    
|         3 |         3 |    0.3 |     
|         4 |         4 |    0.4 |      
|         5 |         5 |    0.5 |    
|         6 |         6 |    0.6 |

b) El siguiente ejemplo muestra un ejemplo extremo de una característica que puede no ser muy informativa por sí misma, pero que es muy informativo junto con otro (Feature_2).

| feature_1 | feature_2 | output |
|-----------|-----------|--------|
|         1 |         1 |    0.1 |      
|         2 |         2 |   0.25 |    
|         3 |         1 |    0.3 |     
|         4 |         2 |   0.45 |      
|         5 |         1 |    0.5 |    
|         6 |         2 |   0.65 |

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange