意思決定ツリー学習前にさまざまな種類のデータ（連続、離散、カテゴリー）を前処理する方法

https://datascience.stackexchange.com/questions/6721

16-10-2019
|

質問

ランダムフォレスト分類器など、いくつかの決定ツリー学習を使用したいと思います。

さまざまなタイプのデータがあります：連続、個別、カテゴリの。一貫した結果を得るために、データを事前に処理する必要がある方法はありますか？

解決

決定ツリーの利点の1つは、順序（連続または離散）入力データが重要な前処理を必要としないことです。実際、木は同等の分割ポイントを選択できるため、スケーリングや翻訳の正規化に関係なく、結果は一貫している必要があります。意思決定ツリーに最適な前処理は、通常、各データディメンション内の相対値の順序を変更しない限り、視覚化に最も簡単なものであるものです。

賢明な順序を持たないカテゴリの入力は、特別なケースです。ランダムフォレストの実装には、カテゴリの入力に対処するための組み込みの方法がない場合は、おそらく1ホットのエンコードを使用する必要があります。

カテゴリ値に$ n $カテゴリがある場合、各カテゴリに対応する$ n $寸法を使用して値をエンコードします。
各データポイントについて、カテゴリ$ k $にある場合、対応する$ k $ th寸法は1に設定され、残りは0に設定されます。

この1ホットのエンコードにより、非軌道データの不平等分割があまり意味がないため、決定ツリーは1つの分割でカテゴリ等式テストを実行できます。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange