我正在研究欺诈检测系统。在该领域,新的欺诈行为定期出现,因此必须持续添加新功能。

我想知道(从开发过程的角度来看)处理它的最佳方法是什么?仅在功能向量中添加新功能并重新训练分类器似乎是一种天真的方法,因为将花费太多时间来重新学习旧功能。

我正在考虑为每个功能(或几个相关功能)培训分类器,然后将这些分类器的结果与整体分类器相结合。这种方法有任何缺点吗?如何为整体分类器选择算法?

有帮助吗?

解决方案

在理想的世界中,您保留所有历史数据,并确实通过从历史数据中追溯提取的新功能运行了一个新模型。我认为在此上花费的计算资源实际上非常有用。真的有问题吗?

是的,这是一种广泛接受的技术,可以建立分类器的合奏并结合其结果。您可以按照新功能和平均预测并行建立一个新模型。这应该增加值,但是,您永远不会以这种方式捕获新的和旧功能之间的互动,因为它们永远不会在分类器中出现。

其他提示

这是一个刚从蓝色中弹出的想法 - 如果您使用 随机子空间采样 (实际上,肖恩·欧文(Sean Owen)已经建议)每次出现新功能时(使用随机功能子集(包括新功能集),训练一堆新分类器。您也可以在样品子集上训练这些型号,以节省一些培训时间。

这样,您可以让新的分类器可能同时采用新的和旧功能,同时保持旧分类器。您甚至可能使用交叉验证技术来测量每个分类器的性能,能够在一段时间后杀死表现最差的表现,以避免使用肿的模型。

您描述的内容属于 概念漂移 在机器学习中。您可能会发现有趣而可行的想法 摘要论文 并且您会发现一种分类法 这些幻灯片.

许可以下: CC-BY-SA归因
scroll top