rランダムフォレスト変数の重要性

https://stackoverflow.com/questions/736514

09-09-2019
|

質問

Rの分類には、ランダムフォレストパッケージを使用しようとしています。

リストされているさまざまな重要性測定値は次のとおりです。

クラス0の変数xの平均生の重要性スコア
クラス1の変数Xの平均生の重要性スコア
MeanDecreaseAccuracy
MeanDecreaseGini

今、私は彼らの定義を知っているように、これらの「意味がある」ことを知っています。私が知りたいのは、それらの使用方法です。

私が本当に知りたいのは、これらの価値がどれほど正確であるか、良い値、悪い値、最大値と最小値などの文脈だけで意味することです。

変数が高い場合 MeanDecreaseAccuracy また MeanDecreaseGini それはそれが重要であるか重要ではないことを意味しますか？また、生のスコアに関する情報も役立つ可能性があります。私は、それらの適用に関連するこれらの数字について知りたいことをすべて知りたいです。

「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダムな森林の仕組みについての議論を伴わないより単純な説明よりも役に立たないでしょう。

ラジオの使用方法を誰かに説明してほしいとしたら、その説明がラジオがどのようにラジオ波を音に変換するかを含むとは思わないでしょう。

解決

「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダムな森林の仕組みについての議論を伴わないより単純な説明よりも役に立たないでしょう。

ラジオの使用方法を誰かに説明してほしいとしたら、その説明がラジオがどのようにラジオ波を音に変換するかを含むとは思わないでしょう。

WKRP 100.5 FMの数値が、波の頻度の厄介な技術的詳細に入ることなく「平均」をどのように説明しますか？率直に言って、ランダムな森林に関するパラメーターと関連するパフォーマンスの問題は、技術用語を理解していても、頭を回すのが困難です。

これがいくつかの答えで私のショットです：

- クラス0の変数xの生の重要性スコア

- クラス1の変数Xの生の重要性スコア

ランダムフォレストから単純化ウェブページ, 、生の重要性スコアは、特定の予測変数がデータの分類に正常に分類されている場合に、ランダムな予測変数よりもはるかに役立つことを測定します。

-meandecreaseaccuracy

これはだけだと思います Rモジュール, 、そして、モデルにこの予測因子をどれだけ含めるかを測定すると、分類エラーが減少すると思います。

-meandecreasegini

ジニ社会の収入の分布を説明する際に使用される場合、または樹木ベースの分類における「ノード不純物」の尺度として使用される場合、「不平等」として定義されます。低ジニ（つまり、ジニのより高いデスクレア）は、特定の予測変数が定義されたクラスにデータを分割する上でより大きな役割を果たすことを意味します。分類ツリーのデータが予測因子の値に基づいて個々のノードで分割されるという事実について話すことなく説明することは難しいものです。これがどのようにパフォーマンスの向上につながるかはそれほど明確ではありません。

他のヒント

あなたの当面の懸念のために：値が高いということは、変数がより重要であることを意味します。これは、あなたが言及したすべての手段に当てはまるはずです。

ランダムフォレストはかなり複雑なモデルを提供するため、重要性の測定値を解釈するのは難しい場合があります。変数が何をしているのかを簡単に理解したい場合は、RFSを使用しないでください。代わりに、線形モデルまたは（非エンセンブル）決定ツリーを使用します。

あなたが言った：

「エラー」、「合計」、または「順列」という言葉を使用する説明は、ランダムな森林の仕組みについての議論を伴わないより単純な説明よりも役に立たないでしょう。

ランダムな森林について掘り下げて学んでいない限り、上記よりもはるかに多く説明するのは非常に難しいでしょう。マニュアル、またはブライマンのマニュアルのセクションについて不平を言っていると思います。

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

変数がどれほど重要であるかを把握するために、ランダムジャンク（ "Permute"）でそれを満たし、予測精度がどれだけ減少するかを確認します。この方法では、MeanDecreaseaccuracyとMeandecreaseginiが機能します。生の重要性スコアが何であるかはわかりません。

ランダムな森林では、解釈可能性はちょっと大変です。 RFは非常に堅牢な分類器ですが、それはその予測を民主的に行います。これにより、変数のランダムなサブセットとデータのランダムなサブセットを採取してツリーを構築することにより、数百または数千本の木を構築することを意味します。次に、すべての選択されていないデータの予測を行い、予測を保存します。データセットの気まぐれをうまく扱うため、その堅牢性（つまり、ランダムに高い/低い値、偶然のプロット/サンプル、同じものを4つの異なる方法を測定するなど）を滑らかにします）。ただし、いくつかの高度に相関した変数がある場合、両方とも各モデルに常に含まれていないため、両方とも重要と思われる場合があります。

ランダムフォレストを使用した潜在的なアプローチの1つは、予測因子を削減し、通常のカートに切り替えるか、推論ベースのツリーモデルのためにパーティーパッケージを試してみることです。ただし、データマイニングの問題について注意し、パラメーターについて推論する必要があります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow