Word2Vecモデルを複数回トラニングすると、「min_count」パラメーターに影響しますか?

datascience.stackexchange https://datascience.stackexchange.com/questions/10502

質問

Word2Vec, 、一連の文を複数回順番に訓練すると(ベクトル表現が増加するため)、単語の頻度が変更されますか?

たとえば、コーパスに「鹿」という言葉が4回、設定した場合 min_count 5になると、モデルを3回トレーニングすると、「鹿」が周波数12で繰り返しカウントされ、モデルに含まれますか?

それが同じコーパスであることがわかっている場合、新しいコーパスでモデルを再訓練する場合、どのように区別することができるか。

役に立ちましたか?

解決

この質問は、Gordon MohrによってGoogleグループで回答されています。

通常、語彙(学習した語彙サイズに基づいてモデルの初期化を含む)を構築するためのコーパスの読み取りが1つあり、その後、トレーニング用の任意の数の追加パスがあります。単語数が見られる(そして比較して、語彙学習スキャンの後にのみ) min_count トリミング用)。

Word2Vecモデルの初期作成の引数の1つとしてコーパス(再起動可能なイテレーターとして)を提供する場合、これらのすべてのステップは自動的に行われます。1つはコーパスの読み取り( build_vocab() 方法)単語/カウントを収集するには、1つ以上のパス(「iter」パラメーターによって制御され、 train() 方法)トレーニング用。それでも、供給されたコーパス上のシングルパスのカウントのみが、周波数決定について重要です。

モデル開始時にコーパスを供給しない場合は、電話をかけることができます build_vocab(…)train(…) あなた自身。それは渡されたものだけです build_vocab() それは、保持されている周波数カウント(およびコーパスサイズの推定値)にとって重要です。その後、電話をかけることができます train(…) 他の方法では、または繰り返し - それは以前の語彙からの語彙を使用し続けるだけです build_vocab(…) 電話。

(ご了承ください train(…) ボカブスキャンパスから記憶されているシングルパスコーパスサイズを再利用して、正確な進捗状況を除外し、トレーニングレートの減衰をスケジュールしようとします alpha. 。したがって、別のサイズのコーパスを与える場合 train(…), また、他のオプションのパラメーターを使用して、サイズのヒントを与える必要があります。)

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top