質問

を使用してバイナリ分類木を構築しています 相互情報獲得 分割機能として。ただし、トレーニング データはいくつかのクラスに偏っているため、逆クラス頻度によって各トレーニング サンプルに重み付けすることをお勧めします。

トレーニング データに重みを付けるにはどうすればよいですか?エントロピーを推定する確率を計算するとき、加重平均を取る必要がありますか?

編集:重みを使ったエントロピーの式が欲しいです。

役に立ちましたか?

他のヒント

あなたが引用したウィキペディアの記事は重み付けについて説明しています。こう書かれています。

重み付けされたバリアント
相互情報量の従来の定式化では、

alt text

(x,y) で指定された各イベントまたはオブジェクトは、対応する確率 p(x,y) によって重み付けされます。これは、すべてのオブジェクトまたはイベントが、発生確率を除けば同等であることを前提としています。ただし、アプリケーションによっては、特定のオブジェクトやイベントが他のものよりも重要である場合や、特定の関連付けパターンが他のものよりも意味論的に重要である場合があります。

たとえば、決定論的マッピング {(1,1),(2,2),(3,3)} は、決定論的マッピング {(1,3),(2,1) よりも (何らかの基準によって) 強力であると見なされる場合があります。 ),(3,2)} ただし、これらの関係は同じ相互情報量を生成します。これは、相互情報量が変数値の固有の順序付けにまったく影響を受けず (Cronbach 1954、Coombs & Dawes 1970、Lockhead 1970)、したがって、関連する変数間の関係マッピングの形式にもまったく影響を受けないためです。 。前者の関係 (すべての変数値の一致を示す) が後の関係よりも強いと判断されることが望ましい場合は、次の重み付き相互情報量を使用できます (Guiasu 1977)

alt text

これは、各変数値の同時発生確率 p(x,y) に重み w(x,y) を置きます。これにより、特定の確率が他の確率より多かれ少なかれ重要性を持つことが可能になり、それによって関連する全体的または計画的な要因の定量化が可能になります。上の例では、w(1,1)、w(2,2)、および w(3,3) に対してより大きな相対重みを使用すると、関係 {(1,1),(関係 {(1,3),(2,1),(3,2)} よりも、2,2),(3,3)} が使用されます。これは、パターン認識などの場合によっては望ましい場合があります。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top