未标记样品的理论处理

https://datascience.stackexchange.com/questions/9027

16-10-2019
|

题

在一个典型的监督学习环境中，有一些正面和一些负面的示例，很明显，未标记的数据带有一些可以使学习受益的信息，并且在标记的数据中未捕获。例如，如果您不丢弃（大量）未标记的数据，则可以估计数据集的平均值，边界和一些其他几何特性，其精度要高得多。

另一方面，从神经网络到SVM的最常见的ML算法并不能利用此信息（至少以标准形式，最常见的形式）。我的问题：

是否有任何理论框架在监督环境中处理未标记的数据？

我可以想到半监督的方法来处理此问题（首先群集，然后标记群集）。还有吗？

解决方案

在神经网络模型中，您可以使用自动编码器.

自动编码器的基本思想是通过创建一个仅复制输出输入向量的网络来学习隐藏的功能层。因此，培训功能和培训“标签”最初是相同的，不需要监督标签。这可以使用经典作用 三角形 具有逐渐较小层的网络体系结构，可捕获一组有用的派生功能集。网络的隐藏层基于较大的无监督数据集学习表示。然后，这些层可用于初始化定期监督的学习网络，以使用实际标签进行培训。

类似的想法是使用受限的玻尔兹曼机器, ，尽管基于不同的原则，但可以以非常相似的方式使用。

其他提示

您已经在问题中删除了关键词“半监督”。确实，半监督学习是您问题的答案。使用您喜欢的搜索引擎或库目录搜索此术语，以了解有关半监督学习算法。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange