对于带有负抽样的Word2Vec,单个单词的成本函数如下 Word2Vec:$$ e = - log( sigma(v_ {w_ {w_ {o}}}^{'}。u_ {w_ {w_ {i}})) - sum_ {k = 1}^k log( sigma(-v_ {-v_ {-v_ {-v_ { w_ {k}}}^{'}。u_ {w_ {i}}))$$

美元

$ u_ {w_ {i}} $ =输入 - >输出字的隐藏单词向量

美元

$ sigma $是sigmoid函数

并相对于$ v_ {w_ {o}}^{'}。

$ frac { partial e} { partial v_ {w_ {w_ {j}}}^{'}。u_ {w_ {w_ {i}}} = sigma(v_ {w_ {w_ {j {j} {i}}) *( sigma(v_ {w_ {j}}}^{'}。u_ {w_ {i}}) - 1)$ $如果w_j = w_o $

$ frac { partial e} { partial v_ {w_ {w_ {j}}}^{'}。u_ {w_ {w_ {i}}} = sigma(v_ {w_ {w_ {j {j} {i}}) * sigma(-v_ {w_ {j}}}^{'}。u_ {w_ {i}})$ $如果w_j = w_k for k = 1 ... k $

那么我们可以使用链条规则来获取

$ frac { partial e} { partial v_ {w_ {w_ {j}}}^{'}} = frac { partial e} { partial v_ { i}}}} * frac { partial v_ {w_ {j}}}^{'}。u_ {w_ {w_ {i}}}} { partial v_ {

我的推理和导数正确吗?我还是ML的新手,所以任何帮助都会很棒!

有帮助吗?

解决方案

在我看来很好。该衍生物也在论文中介绍(公式56-58)。

您要链接的论文是最先进的尝试 - 至少据我所知 - 解释Word2Vec的工作原理,但是关于该主题的其他资源也有很多(只需在Word2Vec上搜索 arxiv.org)。如果您对Word2Vec感兴趣,您可能会发现手套也很有趣(请参阅: 将手套与Word2Vec联系起来).

许可以下: CC-BY-SA归因
scroll top