Validation croisée: K-fold vs répétée de sous-échantillonnage aléatoire

https://datascience.stackexchange.com/questions/511

16-10-2019
|

Question

Je me demande quel type de cross-validation du modèle pour choisir pour le problème de classification: K fois ou sous-échantillonnage aléatoire (échantillonnage bootstrap)

Ma meilleure estimation est d'utiliser les 2/3 de l'ensemble de données (qui est ~ 1000 articles) pour la formation et un tiers pour la validation.

Dans ce cas, donne K fois seulement trois itérations (plis), ce qui ne suffit pas de voir erreur moyenne stable.

D'autre part, je ne suis pas comme fonction de sous-échantillonnage aléatoire. Que certains éléments ne seront pas toujours sélectionnés pour la formation / validation, et certains seront utilisés plus d'une fois

algorithmes de classification utilisé:. Forêt aléatoire et régression logistique

La solution

Si vous avez un nombre suffisant d'échantillons et que vous voulez utiliser toutes les données, puis k fois la validation croisée est le chemin à parcourir. Ayant ~ 1500 semble beaucoup, mais si elle est suffisante pour k fois la validation croisée dépend aussi de la dimensionnalité des données (nombre d'attributs et le nombre de valeurs d'attributs). Par exemple, si chaque observation a 100 attributs, puis 1 500 observations est faible.

Un autre inconvénient potentiel à k fois la validation croisée est la possibilité d'une extrême unique, aberrante biaiser les résultats. Par exemple, si vous avez une valeur aberrante d'extrême qui peut fortement biais de votre classificateur, puis dans 10 fois la validation croisée, 9 des 10 partitions seront affectées (bien que pour les forêts au hasard, je ne pense pas que vous auriez à ce problème ).

Aléatoire sous-échantillonnage (par exemple, l'échantillonnage d'amorçage) est préférable lorsque vous êtes soit ou lorsque vous sous-échantillonnée avez la situation ci-dessus, où vous ne voulez pas chaque observation à apparaître dans les plis de k-1.

Autres conseils

Je suppose que vous dites que vous voulez utiliser 3 fois la validation croisée parce que vous savez quelque chose sur vos données (qu'utiliser k = 10 causerait overfitting? Je suis curieux de votre raisonnement). Je ne suis pas sûr que vous savez cela, sinon vous pouvez simplement utiliser un plus grand k.

Si vous pensez toujours que vous ne pouvez pas utiliser le standard k fois la validation croisée, vous pouvez modifier l'algorithme un peu: disons que vous diviser les données en 30 plis et chaque emploi du temps 20 pour la formation et 10 pour l'évaluation (et puis décaler jusqu'à une fois et utiliser le premier et le dernier 9 que l'évaluation et le reste en tant que formation). Cela signifie que vous êtes en mesure d'utiliser toutes vos données.

Quand j'utilise k fois la validation croisée Je commence en plusieurs fois le processus avec un autre pour vous assurer randomisation que j'ai données suffisantes, si vous ne vous ne verrez pas des performances différentes en fonction de la randomisation. Dans ce cas, je suggère l'échantillonnage. L'astuce est alors de le faire assez souvent.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange