交差検証：k-fold vs繰り返しランダムサブサンプリング

https://datascience.stackexchange.com/questions/511

16-10-2019
|

質問

分類問題のために選択するモデルの交差検証のどのタイプ、K-foldまたはランダムサブサンプリング（ブートストラップサンプリング）？

私の最良の推測では、トレーニングには2/3のデータセット（〜1000アイテム）、検証に1/3を使用することです。

この場合、k-foldは3回の反復（折り目）のみを与えますが、安定した平均エラーが表示されるのに十分ではありません。

一方、私はランダムサブサンプリング機能が好きではありません。一部のアイテムはトレーニング/検証のために選択されることはなく、一部は複数回使用されます。

使用される分類アルゴリズム：ランダムフォレストとロジスティック回帰。

解決

適切な数のサンプルがあり、すべてのデータを使用したい場合は、K-fold Cross-validationが進む方法です。〜1,500を持つことは多くのように思えますが、K倍の交差検証に適しているかどうかは、データの次元（属性の数と属性値の数）にも依存します。たとえば、各観測には100の属性がある場合、1,500の観測値が低くなります。

K倍の交差検証のもう1つの潜在的な欠点は、結果を歪む単一の極端な異常値の可能性です。たとえば、分類器を重視することができる極端な外れ値が1つある場合、10倍の交差検証では、10のパーティションのうち9つが影響を受けます（ただし、ランダムフォレストの場合、その問題はないと思います。）。

ランダムサブサンプリング（例えば、ブートストラップサンプリング）は、アンダーサンプリングされている場合、または上記の状況がある場合、各観測をk-1 foldに表示したくない場合に望ましいです。

他のヒント

あなたはあなたのデータについて何かを知っているので、あなたは3倍の交差検証を使用したいと言うと思います（k = 10を使用することは過剰フィッティングを引き起こすでしょうか？私はあなたの推論に興味があります）。あなたがこれを知っているかどうかはわかりません。そうでない場合は、単に大きなkを使用することができます。

標準のk倍交差検証を使用できないと考えている場合は、アルゴリズムを少し変更できます。データを30倍に分割し、毎回トレーニングに20を使用し、評価に10を使用すると（そしてシフトアップしてください。 1つの折りたたみ、最初と最後の9を評価として、残りはトレーニングとして使用します）。これは、すべてのデータを使用できることを意味します。

K倍の交差検証を使用すると、通常、異なるランダム化でプロセスを複数回実行して、十分なデータがあることを確認します。そうでない場合は、ランダム化に応じて異なるパフォーマンスが表示されます。そのような場合、サンプリングをお勧めします。トリックは、それを十分に頻繁に行うことです。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange