La validación cruzada: K-fold vs sub-muestreo aleatorio repetida

https://datascience.stackexchange.com/questions/511

16-10-2019
|

Pregunta

Me pregunto qué tipo de modelo de validación cruzada para elegir para el problema de clasificación: K veces o (muestreo bootstrap) sub-muestreo aleatorio

Mi mejor conjetura es utilizar 2/3 del conjunto de datos (que es de ~ 1000 elementos) para la formación y 1/3 para su validación.

En este caso K veces da sólo tres iteraciones (pliegues), que no es suficiente para ver error medio estable.

Por otro lado no me gusta función de sub-muestreo al azar:. Que algunos artículos no son siempre seleccionados para la capacitación / validación, y algunos serán utilizados más de una vez

algoritmos de clasificación utilizada:. Azar forestal y de regresión logística

Solución

Si usted tiene un número adecuado de muestras y desea utilizar todos los datos, entonces k veces validación cruzada es el camino a seguir. Tener ~ 1500 parece mucho, pero si es adecuado para k-veces validación cruzada también depende de la dimensionalidad de los datos (número de atributos y el número de valores de atributos). Por ejemplo, si cada observación tiene 100 atributos, 1500 observaciones es baja.

Otra desventaja potencial de k-veces la validación cruzada es la posibilidad de un único valor extremo, extremo sesgando los resultados. Por ejemplo, si tiene un valor atípico extremo que puede en gran medida el sesgo de su clasificador, a continuación, en un 10 veces la validación cruzada, se verá afectada 9 de las 10 particiones (aunque para los bosques al azar, no creo que tendría ese problema ).

Random submuestreo (por ejemplo, toma de muestras bootstrap) es preferible cuando se está ya sea submuestreadas o cuando se tiene la situación anterior, en el que no desea que cada observación que aparezca en K-1 pliegues.

Otros consejos

supongo que usted dice que desea utilizar 3 veces la validación cruzada, porque usted sabe algo acerca de sus datos (que el uso de k = 10 podría causar sobreajuste? Tengo curiosidad por su razonamiento). No estoy seguro de que usted sabe esto, si no, entonces puede simplemente usar un k mayor.

Si usted todavía piensa que no se puede utilizar estándar k veces validación cruzada, entonces se podría modificar el algoritmo de un poco: digamos que permite dividir los datos en 30 pliegues y en cada ocasión en 20 para la formación y 10 para la evaluación (y luego cambie a un rebaño y utilizar el primer y el último 9 como la evaluación y el resto como la formación). Esto significa que usted es capaz de utilizar todos sus datos.

Cuando uso k veces validación cruzada que generalmente se ejecuta el proceso varias veces con una asignación al azar diferente para asegurarse de que no tengo datos suficientes, si no verá diferentes interpretaciones dependiendo de la asignación al azar. En tales casos que sugeriría muestreo. El truco es, pues, de hacerlo con la suficiente frecuencia.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange