题
在一个典型的监督学习环境中,有一些正面和一些负面的示例,很明显,未标记的数据带有一些可以使学习受益的信息,并且在标记的数据中未捕获。例如,如果您不丢弃(大量)未标记的数据,则可以估计数据集的平均值,边界和一些其他几何特性,其精度要高得多。
另一方面,从神经网络到SVM的最常见的ML算法并不能利用此信息(至少以标准形式,最常见的形式)。我的问题:
- 是否有任何理论框架在监督环境中处理未标记的数据?
我可以想到半监督的方法来处理此问题(首先群集,然后标记群集)。还有吗?
其他提示
您已经在问题中删除了关键词“半监督”。确实,半监督学习是您问题的答案。使用您喜欢的搜索引擎或库目录搜索此术语,以了解有关半监督学习算法。