作为我进入数据科学的第一个项目,我想挑选出噪声数据中的主要集群。我认为一个很好的例子是尝试在给定的 StackExchange 问题上挑选出某些链接,该问题有很多答案。最常见的链接类型是指向 SE 网络上的问题的链接。下一个常见的是标签链接或用户配置文件链接。其余链接可能是帖子中包含的随机链接,这被视为噪音。理想情况下,我正在寻找一种解决方案,我不知道提前会有多少链接集群。

我已经使用实现了我的第一次尝试 scikit-learn 和 K 均值。然而,这并不理想,因为我似乎必须提前指定簇的数量,并且我认为随机的、嘈杂的链接被错误地分组。我还认为,与相对较小的 URL 标记相比,它在较大的语料库上更有效(尽管这只是一种猜测)。

有没有办法进行这种类型的聚类,其中聚类数量未知,或者其中一个聚类是一种包含与其他聚类不紧密匹配的对象的杂项聚类?

有帮助吗?

解决方案

你看过吗 数据库扫描?它是一种基于密度的带有噪声的数据空间聚类,可以定义非线性聚类(与 k 均值不同)。

它不需要知道簇的数量。然而,它确实需要两个测量密度的参数(最小簇大小和邻域大小)。但您也许能够在您的特定领域中估计它们。

许可以下: CC-BY-SA归因
scroll top