その情報を得過精度と分割を基準に決定す

https://datascience.stackexchange.com/questions/14433

16-10-2019
|

質問

意思決定ツリーに分類器のアルゴリズムを使用 情報を得る としてspiting評価のポイントになります。を選定しての特徴を最大限情報を得るために分割します。

と思いを正確な情報を得は簡単になります。シナリオはある正確な情報を得ているか。

誰でもできるので説明のメリットについての情報を得過精度として分割の基準は?

解決

決定木にいると一般的に過フィッティングと精度な一般化を目に見えないデータです。一つの情報を得ること--による係数$-p*log(p)$はエントロピーの定義--leafs少数のインスタンスが割り当て下重量($lim_{p ightarrow0^{+}}p*log(p)=0$で恩分割データの大きな均質です。このアプローチは通常、より安定したものが選ぶ最も臨場感のある特徴をありのルートです。

編集：精度は、通常問題とのアンバランスデータです。このことを考え玩具の例:

Weather Wind    Outcome
Sunny   Weak    YES
Sunny   Weak    YES
Rainy   Weak    YES
Cloudy  Medium  YES
Rainy   Medium  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO

天候と風の両方を一つだけ誤ったラベルが同じ精度の16/17.しかし、このデータは、まると想定する人はいないでしょう弱い風(75%)有り。予測のための成果により晴れた天気の50％があります。それは、風を教えてくれることについての詳両方の成果といえます。しかし実際には、複数のデータポイントの成果を利風天気で、時には風予測の小さなラベルをセットにおいて、原則とより強固な新しいデータです。

エントロピーの結果$-4/17*log_2(4/17)-14/17*log_2(14/17))=0.72$.エントロピーのための気象および成果は$14/17*(-1/14*log_2(1/14)-13/14*log_2(13/14))=0.31$る情報を得の$0.41$.同様に、風力、高い情報を得$0.6$.

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange