Gradientenabstiegschritt für Word2VEC -negative Abtastung

https://datascience.stackexchange.com/questions/5615

16-10-2019
|

Frage

Für Word2VEC mit negativer Abtastung ist die Kostenfunktion für ein einzelnes Wort die folgende nach Word2Vec: $$ e = - log ( sigma (v_ {w_ {o}}^{'}. U_ {w_ {i}}) - sum_ {k = 1}^k log ( sigma (-v_ { w_ {k}}^{'}. U_ {W_ {i}})) $$

$ v_ {w_ {o}}^{'} $ = HIDDEN-> Ausgabewortvektor des Ausgabeworts

$ u_ {w_ {i}} $ = input-> verstecktes Wortvektor des Ausgabeworts

$ v_ {w_ {k}}^{'} $ = Hidden-> Ausgabewortvektor des negativen Stichprobenworts

$ sigma $ ist die Sigmoidfunktion

Und die Ableitung in Bezug auf $ v_ {w_ {o}}^{'}. U_ {w_ {j}} $ ist:

$ frac { partial e} { partial v_ {w_ {j}}^{'}. U_ {w_ {i}}} = sigma (v_ {w_ {j}^{'}. Oder

Dann können wir die Kettenregel verwenden, um zu bekommen

$ frac { partial e} { partial v_ {w_ {j}}^{'}} = frac { partial e} { partial v_ {w_ {j}}^{'}. I}}} * frac { partial v_ {w_ {j}}^{'}. U_ {w_ {i}} { partial v_ {w_ {j}} {'}} $

Ist mein Argument und mein Ableitungen korrekt? Ich bin immer noch neu in ML, also wäre jede Hilfe großartig!

Lösung

Sieht gut für mich aus. Dieses Derivat ist auch in der Arbeit vorgestellt (Gleichungen 56-58).

Das Papier, mit dem Sie verlinken, ist der fortschrittlichste Versuch - zumindest nach dem Besten meines Wissens - zu erklären, wie Word2VEC funktioniert, aber es gibt auch viele andere Ressourcen zu diesem Thema (suchen Sie einfach nach Word2VEC auf arxiv.org). Wenn Sie an Word2VEC interessiert sind, können Sie auch Handschuh interessant finden (siehe: Handschuh mit Word2VEC verknüpfen).

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange