Затрагивает ли транзирование модели Word2VEC несколько раз параметр `min_count`?
-
16-10-2019 - |
Вопрос
В Word2Vec
, Если я обучаю набор предложений несколько раз с изменением в порядке (по мере того, как это увеличивает векторные представления), будет ли изменена частота слова из -за этого.
Например, если у меня есть слово «олень» в моем корпусе 4 раза, и если я установил min_count
Чтобы быть 5, обучение модели 3 раза неоднократно считает «оленя» с частотой 12 и будет включена в модель?
Если он знает, что это тот же корпус, то как можно дифференцировать, если я переучите модель новым корпусом.
Решение
На вопрос был отвечен Гордон Мор.
Обычно есть одно чтение о корпусе для создания словаря (что включает в себя инициализацию модели на основе учебного словаря), а затем любое количество дополнительных проходов для обучения. Только после одного сканирования словарного лета
min_count
для обрезки).Если вы предоставляете корпус (как перезапущенный итератор) в качестве одного из аргументов для начального создания модели Word2VEC, все эти шаги выполняются автоматически: одно из них (через корпус (через
build_vocab()
метод) для сбора слов/количества, затем один или несколько проходов (как управляется параметром «итера» и сделан черезtrain()
метод) для обучения. Тем не менее, только количество для единого прохода над поставленным корпусом имеет значение для частотных решений.Если вы не предоставляете корпус в модельной инициализации, вы можете позвонить
build_vocab(…)
а такжеtrain(…)
самим собой. Это только то, что переданоbuild_vocab()
Это имеет значение для оставшихся частот (и оценка размера корпуса). Затем вы можете позвонитьtrain(…)
другими способами или неоднократно - он просто продолжает использовать словарный запас из одного ранееbuild_vocab(…)
вызов.(Обратите внимание, что
train(…)
Пытается повторно использовать размер однопроходного корпуса, запоминающийся из сканирующего прохода, чтобы дать точное оценку прогресса и запланировать распад учебной скорости.alpha
. Анкет Так что, если вы даете вариант другого размераtrain(…)
, вы также должны использовать другие дополнительные параметры, чтобы дать ему намек на размер.)