我手上有一个分类问题,我想用机器学习算法解决这个问题(可能是贝叶斯或马尔可夫,问题与要使用的分类器无关)。鉴于一些培训实例,我正在寻找一种方法来衡量已实施的分类器的性能,同时考虑数据过度拟合问题。

那就是:给定N [1..100]训练样本,如果我在每个样本上运行训练算法,并使用这个相同的样本来测量适应度,它可能会陷入数据过度拟合问题 - 分类器将知道训练实例的确切答案,而没有太大的预测能力,使得健身结果无用。

一个明显的解决方案是将手工标记的样品分成训练和测试样品;我想了解选择具有统计学意义的培训样本的方法。

白皮书,书籍指南和PDF非常感谢!

有帮助吗?

解决方案

您可以使用 10倍交叉验证。我认为这是分类算法性能评估的标准方法。

基本思路是将学习样本分成10个子集。然后使用一个子集用于测试数据,其他子集用于列车数据。对每个子集重复此操作,并计算最终的平均性能。

其他提示

正如布朗斯通先生所说,十倍交叉验证可能是最好的选择。我最近不得不评估一些不同分类器的性能我使用 Weka 。其中有一个API和一大堆工具,可以让您轻松测试许多不同分类器的性能。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top