質問

分類問題のために選択するモデルの交差検証のどのタイプ、K-foldまたはランダムサブサンプリング(ブートストラップサンプリング)?

私の最良の推測では、トレーニングには2/3のデータセット(〜1000アイテム)、検証に1/3を使用することです。

この場合、k-foldは3回の反復(折り目)のみを与えますが、安定した平均エラーが表示されるのに十分ではありません。

一方、私はランダムサブサンプリング機能が好きではありません。一部のアイテムはトレーニング/検証のために選択されることはなく、一部は複数回使用されます。

使用される分類アルゴリズム:ランダムフォレストとロジスティック回帰。

役に立ちましたか?

解決

適切な数のサンプルがあり、すべてのデータを使用したい場合は、K-fold Cross-validationが進む方法です。 〜1,500を持つことは多くのように思えますが、K倍の交差検証に適しているかどうかは、データの次元(属性の数と属性値の数)にも依存します。たとえば、各観測には100の属性がある場合、1,500の観測値が低くなります。

K倍の交差検証のもう1つの潜在的な欠点は、結果を歪む単一の極端な異常値の可能性です。たとえば、分類器を重視することができる極端な外れ値が1つある場合、10倍の交差検証では、10のパーティションのうち9つが影響を受けます(ただし、ランダムフォレストの場合、その問題はないと思います。 )。

ランダムサブサンプリング(例えば、ブートストラップサンプリング)は、アンダーサンプリングされている場合、または上記の状況がある場合、各観測をk-1 foldに表示したくない場合に望ましいです。

他のヒント

あなたはあなたのデータについて何かを知っているので、あなたは3倍の交差検証を使用したいと言うと思います(k = 10を使用することは過剰フィッティングを引き起こすでしょうか?私はあなたの推論に興味があります)。あなたがこれを知っているかどうかはわかりません。そうでない場合は、単に大きなkを使用することができます。

標準のk倍交差検証を使用できないと考えている場合は、アルゴリズムを少し変更できます。データを30倍に分割し、毎回トレーニングに20を使用し、評価に10を使用すると(そしてシフトアップしてください。 1つの折りたたみ、最初と最後の9を評価として、残りはトレーニングとして使用します)。これは、すべてのデータを使用できることを意味します。

K倍の交差検証を使用すると、通常、異なるランダム化でプロセスを複数回実行して、十分なデータがあることを確認します。そうでない場合は、ランダム化に応じて異なるパフォーマンスが表示されます。そのような場合、サンプリングをお勧めします。トリックは、それを十分に頻繁に行うことです。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top