Word2Vec负抽样的梯度下降步骤

https://datascience.stackexchange.com/questions/5615

16-10-2019
|

题

对于带有负抽样的Word2Vec，单个单词的成本函数如下 Word2Vec：$$ e = - log（ sigma（v_ {w_ {w_ {o}}}^{'}。u_ {w_ {w_ {i}}）） - sum_ {k = 1}^k log（ sigma（-v_ {-v_ {-v_ {-v_ { w_ {k}}}^{'}。u_ {w_ {i}}））$$

美元

$ u_ {w_ {i}} $ =输入 - >输出字的隐藏单词向量

美元

$ sigma $是sigmoid函数

并相对于$ v_ {w_ {o}}^{'}。

$ frac { partial e} { partial v_ {w_ {w_ {j}}}^{'}。u_ {w_ {w_ {i}}} = sigma（v_ {w_ {w_ {j {j} {i}}） *（ sigma（v_ {w_ {j}}}^{'}。u_ {w_ {i}}） - 1）$ $如果w_j = w_o $

$ frac { partial e} { partial v_ {w_ {w_ {j}}}^{'}。u_ {w_ {w_ {i}}} = sigma（v_ {w_ {w_ {j {j} {i}}） * sigma（-v_ {w_ {j}}}^{'}。u_ {w_ {i}}）$ $如果w_j = w_k for k = 1 ... k $

那么我们可以使用链条规则来获取

$ frac { partial e} { partial v_ {w_ {w_ {j}}}^{'}} = frac { partial e} { partial v_ { i}}}} * frac { partial v_ {w_ {j}}}^{'}。u_ {w_ {w_ {i}}}} { partial v_ {

我的推理和导数正确吗？我还是ML的新手，所以任何帮助都会很棒！

解决方案

在我看来很好。该衍生物也在论文中介绍（公式56-58）。

您要链接的论文是最先进的尝试 - 至少据我所知 - 解释Word2Vec的工作原理，但是关于该主题的其他资源也有很多（只需在Word2Vec上搜索 arxiv.org）。如果您对Word2Vec感兴趣，您可能会发现手套也很有趣（请参阅：将手套与Word2Vec联系起来).

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange