質問

手に分類問題があります。これを機械学習アルゴリズムで解決したいと思います(ベイズ、またはおそらくマルコビアン、質問は使用する分類器に依存しません)。多数のトレーニングインスタンスが与えられているため、データのオーバーフィッティングの問題を考慮して、実装された分類器のパフォーマンスを測定する方法を探しています。

つまり、N [1..100]個のトレーニングサンプルが与えられ、すべてのサンプルでトレーニングアルゴリズムを実行し、この同じサンプルを使用して適合性を測定すると、データの過剰適合問題に陥る可能性があります。分類子は、多くの予測力を持たずにトレーニングインスタンスの正確な答えを認識し、フィットネス結果を役に立たなくします。

明らかな解決策は、手でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。統計的に有意なサンプルをトレーニング用に選択する方法について学びたいです。

ホワイトペーパー、ブックポインター、およびPDFは大歓迎です!

役に立ちましたか?

解決

これには、 10倍交差検証を使用できます。分類アルゴリズムのパフォーマンス評価のためのかなり標準的なアプローチだと思います。

基本的な考え方は、学習サンプルを10個のサブセットに分割することです。次に、テストデータに1つのサブセットを使用し、列車データに他のサブセットを使用します。サブセットごとにこれを繰り返し、最後に平均パフォーマンスを計算します。

他のヒント

ブラウンストーン氏が述べたように、10倍の交差検証がおそらく最良の方法です。 Weka 。 APIと多数のさまざまな分類子のパフォーマンスを簡単にテストできるツールがあります。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top