質問

私は、データセットの肯定的な例と否定的な例が不均衡になる状況に直面しています。

私の質問は、データセットで何らかのバランスを強制するために、大きなカテゴリをサブサンプリングする必要があることを教えてくれる経験則があるかどうかです。

例:

  • 肯定的な例の数が1,000で、否定的な例の数が10,000の場合、完全なデータセットで分類器をトレーニングする必要がありますか、それともネガティブな例をサブサンプリングする必要がありますか?
  • 1,000の肯定的な例と100,000のネガティブについても同じ質問。
  • 10,000の陽性と1,000のネガの同じ質問。
  • 等...
役に立ちましたか?

解決

サブサンプリング(ダウンサンプリング)は、ベースレベルでのクラスの不均衡を制御するための一般的な方法であると思います。つまり、問題のルートを修正します。したがって、すべての例では、毎回クラスの大部分の1,000をランダムに選択することが機能します。 10個のモデル(1,000人のマイノリティと1,000人の過半数の10倍)を作ることで遊ぶこともできます。そのため、データセット全体を使用します。この方法を使用できますが、アンサンブルメソッドを試していない限り、再び9,000のサンプルを捨てるようなものです。簡単な修正ですが、データに基づいて最適なモデルを取得するのは難しいです。

クラスの不均衡を制御する必要がある程度は、主に目標に基づいています。純粋な分類に関心がある場合、不均衡はほとんどのテクニックの50%の確率に影響を与えるため、ダウンサンプリングを検討します。分類の順序のみを気にし(一般にネガよりも多いポジティブを必要とします)、AUCなどの測定値を使用する場合、クラスの不均衡は確率のみに偏りますが、ほとんどのテクニックでは相対順序はきちんと安定している必要があります。

ロジスティック回帰はクラスの不均衡に適しています。なぜなら、少数派クラスの500を超える限り、パラメーターの推定値は十分に正確であり、唯一の影響はインターセプトにあり、それはあなたがかもしれないものであるかどうかを修正できるためです欲しいです。ロジスティック回帰は、単なるクラスではなく確率をモデル化するため、ニーズに合わせてより手動で調整することができます。

多くの分類手法には、少数派のクラスに集中するのに役立つクラスの重量引数もあります。それは真の少数派クラスのミス分類を罰するので、あなたの全体的な存在感は少し苦しむでしょうが、あなたは正しく分類されているより多くの少数派のクラスを見始めます。

他のヒント

不均衡は正式に定義されるわけではありませんが、1対10の比率は通常、バランステクニックを使用することで利益を得るのに十分な不均衡です。

相対的と絶対的な不均衡には2つのタイプがあります。相対的なものでは、多数派と少数派のクラスの比率は不均衡です。絶対的には、少数の少数サンプルもあります。不均衡が高いほど、絶対的な不均衡にも到達する可能性が高くなります。

単純なサブサンプリングは、不均衡なデータセットに対処するための最適な方法ではないことに注意してください。これは、元のデータセットでうまく機能する分類子を構築する必要があるためです。不均衡なデータセットに分類器を構築するための手法については、参照してください ここ。分類器を評価するには、参照してください ここ.

データの不均衡の問題??理論的には、それは数字に関するものです。差が1つのサンプルであっても、データの不均衡です

実際には、これはデータの不均衡の問題であると言うことは、次の3つのものによって制御されます。1。あなたが持っているサンプルの数と分布2.同じクラス内の変動3.異なるクラス間の類似性

最後の2つのポイントは、私たちの問題をどのように考慮するかを変えます。

これを説明するために、例を挙げましょう:クラスA = 100サンプルクラスb = 10000

クラスB内のバリエーションが非常に低い場合、ダウンサンプリングで十分であるため、データの不均衡の問題はありません

クラスB内でバリエーションが非常に高い場合、ダウンサンプリングは情報の損失につながる可能性があり、ダウンサンプリングを適用することは危険です

別のポイント、多くのサンプル(主に少数派のクラス用)を持っていることで、データの不均衡の問題を緩和し、対処しやすくします

たとえば、10:100。 1000:10 000

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top