分類アルゴリズムのパフォーマンスの測定
-
03-07-2019 - |
質問
手に分類問題があります。これを機械学習アルゴリズムで解決したいと思います(ベイズ、またはおそらくマルコビアン、質問は使用する分類器に依存しません)。多数のトレーニングインスタンスが与えられているため、データのオーバーフィッティングの問題を考慮して、実装された分類器のパフォーマンスを測定する方法を探しています。
つまり、N [1..100]個のトレーニングサンプルが与えられ、すべてのサンプルでトレーニングアルゴリズムを実行し、この同じサンプルを使用して適合性を測定すると、データの過剰適合問題に陥る可能性があります。分類子は、多くの予測力を持たずにトレーニングインスタンスの正確な答えを認識し、フィットネス結果を役に立たなくします。
明らかな解決策は、手でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。統計的に有意なサンプルをトレーニング用に選択する方法について学びたいです。
ホワイトペーパー、ブックポインター、およびPDFは大歓迎です!
解決
これには、 10倍交差検証を使用できます。分類アルゴリズムのパフォーマンス評価のためのかなり標準的なアプローチだと思います。
基本的な考え方は、学習サンプルを10個のサブセットに分割することです。次に、テストデータに1つのサブセットを使用し、列車データに他のサブセットを使用します。サブセットごとにこれを繰り返し、最後に平均パフォーマンスを計算します。
他のヒント
ブラウンストーン氏が述べたように、10倍の交差検証がおそらく最良の方法です。 Weka 。 APIと多数のさまざまな分類子のパフォーマンスを簡単にテストできるツールがあります。
所属していません StackOverflow