意思決定ツリー学習前にさまざまな種類のデータ(連続、離散、カテゴリー)を前処理する方法

datascience.stackexchange https://datascience.stackexchange.com/questions/6721

質問

ランダムフォレスト分類器など、いくつかの決定ツリー学習を使用したいと思います。

さまざまなタイプのデータがあります:連続、個別、カテゴリの。一貫した結果を得るために、データを事前に処理する必要がある方法はありますか?

役に立ちましたか?

解決

決定ツリーの利点の1つは、順序(連続または離散)入力データが重要な前処理を必要としないことです。実際、木は同等の分割ポイントを選択できるため、スケーリングや翻訳の正規化に関係なく、結果は一貫している必要があります。意思決定ツリーに最適な前処理は、通常、各データディメンション内の相対値の順序を変更しない限り、視覚化に最も簡単なものであるものです。

賢明な順序を持たないカテゴリの入力は、特別なケースです。ランダムフォレストの実装には、カテゴリの入力に対処するための組み込みの方法がない場合は、おそらく1ホットのエンコードを使用する必要があります。

  • カテゴリ値に$ n $カテゴリがある場合、各カテゴリに対応する$ n $寸法を使用して値をエンコードします。
  • 各データポイントについて、カテゴリ$ k $にある場合、対応する$ k $ th寸法は1に設定され、残りは0に設定されます。

この1ホットのエンコードにより、非軌道データの不平等分割があまり意味がないため、決定ツリーは1つの分割でカテゴリ等式テストを実行できます。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top