我正在基于相对较小的数据集建立分类模型。我对拥有的不同属性有一些缺少的值。我负担不起删除缺少值的任何记录,因此我想替换它们。

我进行了一些一般的计算,以了解数据的中断,并帮助我选择将取代缺失值的值,

假设我具有以下属性:
平均值= 121.68676278
std = 30.51562426
中值= 117
模式=
最小= 44
max = 199
在所有计算中,我忽略了缺失的值

如果我要在平均值,中位数或模式之间进行选择,哪一个最合适?

而且还有其他事情对我来说很困惑,性病非常大,当我问到这一点时,我被告知这可能是根据我的数据范围是正常的,但是我不明白这意味着什么?

有帮助吗?

解决方案

  1. 我会 不是 绝对建议按平均值或中位数或模式替换缺失值。如果您想浏览一些技术并浏览它们,我建议您浏览一下 关联 以及插补技术 这个 Wiki页面为您提供了简介。

  2. 您是否认为有一种方法可以预测其他单元格的缺失值。如果是,请在这些变量上应用回归模型,并估计缺失值。但是请记住,这缺乏可变性,因为值落在回归线本身上。有一些方法之类的方法可以将此可变性组件添加到估计值中。

  3. 如果您无法从上一个步骤进入任何地方,请查看如何将值分配给缺失的变量,请使用随机函数根据该分布替换它们。

  4. 而且,如果您无法执行上述任何一个,并且想卑鄙地走。我真的不能发表自己的意见,因为在这种情况下,它们彼此之间更加接近。查看是什么使您获得最好的预测并在它们之间做出决定。

  5. 来到您的最后一个问题,标准。偏差仅显示您的价值观远离平均值。如果您的数据具有较大的范围,并且在极端分布的足够数量,则预计您将具有高性病。偏差。

许可以下: CC-BY-SA归因
scroll top