Selección de características para máquinas de vectores de soporte

https://datascience.stackexchange.com/questions/6590

16-10-2019
|

Pregunta

Mi pregunta es triple

En el contexto de máquinas de vectores de soporte "kernelizadas"

Es deseable la selección variable/característica, especialmente porque regularizamos el parámetro C para evitar el sobreajuste y el motivo principal detrás de la introducción de los núcleos a un SVM es aumentar la dimensionalidad del problema, en tal caso, reducir las dimensiones por reducción de parámetros parece contradictoria.
Si la respuesta a la primera pregunta es "no", entonces, ¿sobre qué condiciones cambiaría la respuesta que uno debería tener en cuenta?
¿Hay algún buen método que se haya intentado generar la reducción de características para los SVM en la biblioteca de Python de Scikit -Learn? He probado el método SelectFPR y estoy buscando personas con experiencias con diferentes métodos.

Solución

Personalmente, me gusta dividir la selección de características en dos:

selección de características no supervisada
Selección de características supervisadas

Selección de características no supervisada son cosas como la agrupación o PCA donde selecciona el rango de características menos redundante (o crea características con poca redundancia). Selección de características supervisadas son cosas como Lasso donde selecciona las características con la mayor potencia predictiva.

Personalmente, generalmente prefiero lo que yo llamo selección de características supervisadas. Entonces, al usar una regresión lineal, seleccionaría características basadas en LASSO. Existen métodos similares para inducir escasez en redes neuronales.

Pero, de hecho, no veo cómo haría eso en un método usando núcleos, por lo que probablemente sea mejor que use lo que yo llamo selección de características sin supervisión.

EDITAR: También preguntó sobre la regularización. Veo que la regularización ayuda principalmente porque trabajamos con muestras finitas y, por lo tanto, la distribución de capacitación y prueba siempre diferirá un poco, y desea que su modelo no se superponga. No estoy seguro de que elimine la necesidad de evitar seleccionar características (si realmente tiene demasiadas). Creo que seleccionar características (o crear un subconjunto más pequeño de ellas) ayuda a hacer que las características tengan más robustas y evitar el modelo para aprender de las correlaciones espurias. Por lo tanto, la regularización ayuda, pero no estoy seguro de que sea una alternativa completa. Pero no he pensado lo suficientemente a fondo sobre esto.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange