データ分布に基づいて欠損値を置き換える選択

https://datascience.stackexchange.com/questions/15292

16-10-2019
|

質問

比較的小さなデータセットに基づいて分類モデルを構築しています。私が持っているさまざまな属性にいくつかの欠損値があります。欠損値があるレコードを削除する余裕はないので、それらを交換したいと思います。

データの混乱を理解し、欠損値を置き換える値を選択するのを助けるために、いくつかの一般的な計算を行いました。

私は次のような属性Aを持っていると仮定します。
平均= 121.68676278
std = 30.51562426
中央値= 117
モード=
min = 44
max = 199
すべての計算において、欠損値を無視しました

私が平均、中央値、またはモードを選択した場合、どれが最も適しているでしょうか？

そして、私にとって非常に混乱していた何か他のものがあります。STDは非常に大きく、それについて尋ねたとき、私はこれが私のデータの範囲に基づいて正常である可能性があると言われましたが、それが何を意味するのか理解していませんでしたか？

解決

私は...するだろう いいえ 欠損値を平均または中央値またはモードで置換することを絶対にお勧めします。あなたがいくつかのテクニックを経験して、それらを一目見たいなら、私はこれを行うことをお勧めしますリンクそして、帰属技術のためにこれ wikiページはあなたに簡単なことを与えます。
他のセルから欠損値を予測する方法があると思いますか。はいの場合、これらの変数に回帰モデルを適用し、欠損値を推定します。しかし、これには、値が回帰線自体にあるため、変動性がないことを忘れないでください。この変動コンポーネントを推定値に追加できる回帰代入のような方法があります。
前のステップからどこにでも行くことができない場合は、欠落している変数に対して値がどのように分布しているかを確認してください。ランダム関数を使用して、その分布に従って置き換えます。
そして、上記のもののいずれかを実行できず、平均的に行きたい場合は中央値。この場合、彼らはお互いに近づいているので、私は本当に私の意見を述べることができません。何があなたに最高の予測可能なものを与えるかを見て、それらの間で決定します。
あなたの最後の質問に来る、std。逸脱は、あなたの価値が平均からどれだけ離れているかを示すだけです。極端なポイント数が十分に多い範囲でデータの範囲が広い場合、STDが高いと予想されます。偏差。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange