我有一个数据集,其中包含一个分类功能,缺少率为95%。什么值可以替换缺失的单元格?还是删除此功能?

有帮助吗?

解决方案

您可以将其变成一个单热编码的功能,并带有一类“缺失”类,具体取决于基数(那里有多少个类别)。如果基数太高,则需要使用其他技术来获得高基数功能,但您仍然可以将“缺少”作为附加类别。

其他提示

我已经阅读了另一个答案的评论,似乎您有很多丢失的数据。然后,在这种情况下,我会推荐小鼠插补(链式的多个插补)。它处理所有类型的不同变量类型(数值,分类,二进制),并且填充NA值取决于变量的类型。如果使用R,则可以检查 https://cran.r-project.org/web/packages/mice/mice.pdf. 。它包含详细的软件包和功能信息和示例。

许可以下: CC-BY-SA归因
scroll top