不足しているカテゴリ機能の代入を行うにはどうすればよいですか?
-
22-10-2019 - |
質問
95%が欠落しているカテゴリ機能を含むデータセットがあります。欠落したセルを置き換えることができますか?または、この機能をドロップしますか?
解決
カーディナリティに応じて、「欠落」のクラスが追加された1ホットのエンコードされた機能に変えることができます(カテゴリの数)。カーディナリティが高すぎる場合は、高いカーディナリティ機能に他のテクニックを使用する必要がありますが、追加のカテゴリとして「欠落」している可能性があります。
他のヒント
私は別の答えのコメントを読んだことがありますが、あなたは多くの欠落データを持っているようです。この場合、マウスの代入をお勧めします(鎖ではある式を持つ複数の代入)。すべてのタイプの異なる変数タイプ(数値、カテゴリ、バイナリ)を扱い、NA値を埋めることは変数のタイプに依存します。 Rを使用する場合は、確認できます https://cran.r-project.org/web/packages/mice/mice.pdf. 。詳細なパッケージと機能の情報と例が含まれています。
所属していません datascience.stackexchange