意思決定ツリー学習前にさまざまな種類のデータ(連続、離散、カテゴリー)を前処理する方法
-
16-10-2019 - |
質問
ランダムフォレスト分類器など、いくつかの決定ツリー学習を使用したいと思います。
さまざまなタイプのデータがあります:連続、個別、カテゴリの。一貫した結果を得るために、データを事前に処理する必要がある方法はありますか?
解決
決定ツリーの利点の1つは、順序(連続または離散)入力データが重要な前処理を必要としないことです。実際、木は同等の分割ポイントを選択できるため、スケーリングや翻訳の正規化に関係なく、結果は一貫している必要があります。意思決定ツリーに最適な前処理は、通常、各データディメンション内の相対値の順序を変更しない限り、視覚化に最も簡単なものであるものです。
賢明な順序を持たないカテゴリの入力は、特別なケースです。ランダムフォレストの実装には、カテゴリの入力に対処するための組み込みの方法がない場合は、おそらく1ホットのエンコードを使用する必要があります。
- カテゴリ値に$ n $カテゴリがある場合、各カテゴリに対応する$ n $寸法を使用して値をエンコードします。
- 各データポイントについて、カテゴリ$ k $にある場合、対応する$ k $ th寸法は1に設定され、残りは0に設定されます。
この1ホットのエンコードにより、非軌道データの不平等分割があまり意味がないため、決定ツリーは1つの分割でカテゴリ等式テストを実行できます。
所属していません datascience.stackexchange