Word2vec come scegliere il parametro dimensione di incorporamento

https://datascience.stackexchange.com/questions/51404

01-11-2019
|

Domanda

Sto eseguendo Word2Vec sulla raccolta di documenti. Capisco che la dimensione del modello è il numero di dimensioni dello spazio vettoriale in cui è incorporata la parola. E che dimensioni diverse sono in qualche modo correlate a diversi "concetti" indipendenti in cui una parola potrebbe essere raggruppata. Ma al di là di questo non riesco a trovare alcuna euristica decente su come scegliere esattamente il numero. C'è qualche discussione qui sulla dimensione del vocabolario: https://stackoverflow.com/questions/45444964/python-what-is-the-size-parameter-in-gensim-word2vec-model-class Tuttavia, sospetto che la dimensione del vocabolario non sia più importante, ma più importante è quanti documenti di esempio hai e quanto tempo sono. Sicuramente ogni "dimensione" dovrebbe avere esempi sufficienti da imparare?

Ho una raccolta di 200.000 documenti, con una media di circa 20 pagine ciascuno, che copre un vocabolario della maggior parte della lingua inglese. Sto usando Word2Vec Incorporaggio come base per trovare distanze tra frasi e documenti. Sto usando Gensim, se è importante. Sto usando una dimensione di 240. È ragionevole? Ci sono studi su quale euristica utilizzare per scegliere il parametro delle dimensioni? Grazie.

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange