Word2Vecモデルを複数回トラニングすると、「min_count」パラメーターに影響しますか?
-
16-10-2019 - |
質問
の Word2Vec
, 、一連の文を複数回順番に訓練すると(ベクトル表現が増加するため)、単語の頻度が変更されますか?
たとえば、コーパスに「鹿」という言葉が4回、設定した場合 min_count
5になると、モデルを3回トレーニングすると、「鹿」が周波数12で繰り返しカウントされ、モデルに含まれますか?
それが同じコーパスであることがわかっている場合、新しいコーパスでモデルを再訓練する場合、どのように区別することができるか。
解決
この質問は、Gordon MohrによってGoogleグループで回答されています。
通常、語彙(学習した語彙サイズに基づいてモデルの初期化を含む)を構築するためのコーパスの読み取りが1つあり、その後、トレーニング用の任意の数の追加パスがあります。単語数が見られる(そして比較して、語彙学習スキャンの後にのみ)
min_count
トリミング用)。Word2Vecモデルの初期作成の引数の1つとしてコーパス(再起動可能なイテレーターとして)を提供する場合、これらのすべてのステップは自動的に行われます。1つはコーパスの読み取り(
build_vocab()
方法)単語/カウントを収集するには、1つ以上のパス(「iter」パラメーターによって制御され、train()
方法)トレーニング用。それでも、供給されたコーパス上のシングルパスのカウントのみが、周波数決定について重要です。モデル開始時にコーパスを供給しない場合は、電話をかけることができます
build_vocab(…)
とtrain(…)
あなた自身。それは渡されたものだけですbuild_vocab()
それは、保持されている周波数カウント(およびコーパスサイズの推定値)にとって重要です。その後、電話をかけることができますtrain(…)
他の方法では、または繰り返し - それは以前の語彙からの語彙を使用し続けるだけですbuild_vocab(…)
電話。(ご了承ください
train(…)
ボカブスキャンパスから記憶されているシングルパスコーパスサイズを再利用して、正確な進捗状況を除外し、トレーニングレートの減衰をスケジュールしようとしますalpha
. 。したがって、別のサイズのコーパスを与える場合train(…)
, また、他のオプションのパラメーターを使用して、サイズのヒントを与える必要があります。)