ランダムフォレストによる描画のための変数の義務的な組み合わせを作成する

https://datascience.stackexchange.com/questions/1094

16-10-2019
|

質問

問題

機械学習タスクでは、予測因子のセットを作成します。予測因子には「バンドル」 - 多次元測定（私の場合は3または4次元）があります。

穴の「バンドル」は、それが測定され、すべて一緒になった場合にのみ理にかなっています。

問題は、予測因子の異なる「バンドル」はサンプルのごく一部でのみ測定できることであり、これらの部品は異なる「バンドル」に対して必要ではないことです。

部品が小さくなるため、帰属は精度の大幅な減少につながります（より正確になるために壊滅的な）

可能な解決策

各変数に対して測定が行われたかどうかをマークするダミー変数を作成できます。問題は、ランダムフォレストがランダム変数を描くと、個別にそうすることです。

したがって、この問題を解決するための2つの基本的な方法があります。1）各「バンドル」を1つの予測子に結合します。それは可能ですが、情報は失われるようです。 2）ランダムな森林描画変数を個別にではなく、義務的な「バンドル」によって描画します。

ランダムフォレストの問題

ランダムフォレストが変数をランダムに描画するため、「バンドル」から他のものなしで役に立たない（またはそれほど有用ではない）機能が必要です。私は精度の損失につながる感覚を持っています。

例

たとえば、変数があります a,a_measure, b,b_measure。問題は、変数です a_measure 変数の場合にのみ理にかなっています a 存在します、同じです b. 。だから私は組み合わせる必要があります aと a_measure 少なくとも1つが描かれている場合に備えて、1つの変数に、またはランダムフォレストの両方を描きます。

質問

さまざまな予測因子が全体的な母集団の小さな部分について測定され、これらの予測因子のセットが義務的な「バンドル」で測定された場合、問題のベストプラクティスソリューションは何ですか？

ありがとうございました！

解決

ランダムな森林ではなく、グラデーションブーストされた木を考慮することをお勧めします。また、アンサンブルツリーベースの方法でもありますが、この方法では寸法をサンプリングしないため、特定の時間に分割できる有用な予測因子がないという問題に陥りません。

GBDTのさまざまな実装には、欠損値を処理するさまざまな方法があり、ケースに大きな違いが生じます。 Rは、うまく機能する可能性が高い三元分裂を行うと思います。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange