选择基于数据分布替换缺失值

题

我正在基于相对较小的数据集建立分类模型。我对拥有的不同属性有一些缺少的值。我负担不起删除缺少值的任何记录，因此我想替换它们。

我进行了一些一般的计算，以了解数据的中断，并帮助我选择将取代缺失值的值，

假设我具有以下属性：
平均值= 121.68676278
std = 30.51562426
中值= 117
模式=
最小= 44
max = 199
在所有计算中，我忽略了缺失的值

如果我要在平均值，中位数或模式之间进行选择，哪一个最合适？

而且还有其他事情对我来说很困惑，性病非常大，当我问到这一点时，我被告知这可能是根据我的数据范围是正常的，但是我不明白这意味着什么？

解决方案

我会不是绝对建议按平均值或中位数或模式替换缺失值。如果您想浏览一些技术并浏览它们，我建议您浏览一下关联以及插补技术这个 Wiki页面为您提供了简介。
您是否认为有一种方法可以预测其他单元格的缺失值。如果是，请在这些变量上应用回归模型，并估计缺失值。但是请记住，这缺乏可变性，因为值落在回归线本身上。有一些方法之类的方法可以将此可变性组件添加到估计值中。
如果您无法从上一个步骤进入任何地方，请查看如何将值分配给缺失的变量，请使用随机函数根据该分布替换它们。
而且，如果您无法执行上述任何一个，并且想卑鄙地走。我真的不能发表自己的意见，因为在这种情况下，它们彼此之间更加接近。查看是什么使您获得最好的预测并在它们之间做出决定。
来到您的最后一个问题，标准。偏差仅显示您的价值观远离平均值。如果您的数据具有较大的范围，并且在极端分布的足够数量，则预计您将具有高性病。偏差。

许可以下： CC-BY-SA 和归因