潜在语义索引（LSI）是统计分类算法吗？

题

潜在语义索引（LSI）是统计分类算法吗？为什么或者为什么不？

基本上，我想弄清楚为什么统计分类的维基百科页面不提LSI。我刚刚开始讨论这些问题，我试图了解所有不同的分类方法是如何相互关联的。

解决方案

不，他们并不完全相同。统计分类旨在尽可能干净地将项目分类 - 例如，对项目X是否更像是A组或B组中的项目做出清晰的决定。

LSI旨在显示项目相似或不同的程度，主要是查找与指定项目具有相似程度的项目。虽然这是类似的，但它并不完全相同。

其他提示

LSI / LSA最终是降维的技术，通常与最近邻算法结合使其成为分类系统。因此，它本身只是一种“索引”的方式。使用SVD在较低维度的数据。

您是否了解过维基百科上的LSI ？它说它使用矩阵分解（ SVD ），而这有时也用于分类。

机器学习的主要区别在于“监督”与“监督”之间的区别。和“无监督的”建模。

通常用词“统计分类”来表示。参考有监督的模型，但并非总是如此。

使用监督方法，训练集包含“地面实况”。标记您构建要预测的模型。在评估模型时，目标是预测真实标签的最佳猜测（或概率分布），这在评估时是不会的。通常有一个绩效指标，而且很清楚正确与错误的答案是什么。

无监督分类方法试图将可能看起来以复杂方式变化的大量数据点聚类成较少数量的“相似”数据点。类别。每个类别中的数据应该以某种“有趣”或“深入”的方式相似。由于没有“基本事实”，你不能评价'对或错'，但'更'与'不那么'有趣或有用。

类似的评估时间你可以将新的例子放入可能的一个集群中（清晰的分类）或者给出某种加权来量化类似或不同的看起来像“原型”的类型。集群

因此，在某些方面，有监督和无监督的模型可以产生一些“预测”，预测类/集群标签，但它们本质上是不同的。

无监督模型的目标通常是为后续的监督模型提供更智能，更强大的紧凑输入。

许可以下： CC-BY-SA 和归因