我有一组类别,我想将文档向量与类别的单词向量进行比较,以查找最佳匹配类别。

是否可以将单词向量与文档向量进行比较?如果是,是否有任何文献为此提供概念证明?

有帮助吗?

解决方案

在段落向量中,向量试图通过将向量本身放置在每个上下文中,以掌握上下文中所有单词的语义含义。因此,最后,段落向量包含训练上下文中所有单词的语义含义。

当我们将其与Word2Vec进行比较时,Word2Vec中的每个单词都保留其自身的语义含义。因此,总结所有向量或平均它们将导致矢量可以保留所有语义。这是明智的,因为当我们添加向量(传输+水)时,结果几乎等于船或船,这意味着求和矢量总结了语义。

在发表段落论文之前,人们使用平均单词向量作为句子向量。老实说,在我的工作中,这些平均向量比文档向量更好。因此,考虑到这些事情,可以将其比较。

许可以下: CC-BY-SA归因
scroll top