我有一个帐户列表作为数据集,我需要使用许多功能分组给同一用户的帐户。

我正在考虑使用机器学习(但我在这个领域中是新手),因为我知道培训数据集的每个帐户的组。
培训数据的前:

account-id   Feature1    Feature2    class(Group)
1            T1          P4          Gr1
2            T2          P4          Gr1
3            T3          P2          Gr2

问题在于数据的测试以及何时在培训集中未曾学到的新小组的新帐户到达。
测试数据的前:

account-id   Feature1   Feature2
4             T5         P5
5             T6         P5
6             T3         P2

测试数据组应如下:

account-id   Feature1   Feature2   class(Group)
4             T5         P5         Gr3
5             T6         P5         Gr3
6             T3         P2         Gr2

帐户4和5位于一个新组(GR3)中,在培训数据中没有学到。

我的问题是,我如何在学习阶段之前未定义的新类中分组新数据?我可以使用哪种算法来解决此问题?

有帮助吗?

解决方案

我认为您需要阅读 在线学习, ,它指的是学习何时不断添加新数据。在这些情况下,您需要一种算法,该算法可以随着新数据的到来而自行更新(即,不需要从头开始重新计算自身)。换句话说, 逐步.

支持向量机(SVM)和神经网络有增量版本。此外,可以使贝叶斯网络逐步工作。

许可以下: CC-BY-SA归因
scroll top