Затрагивает ли транзирование модели Word2VEC несколько раз параметр `min_count`?

datascience.stackexchange https://datascience.stackexchange.com/questions/10502

Вопрос

В Word2Vec, Если я обучаю набор предложений несколько раз с изменением в порядке (по мере того, как это увеличивает векторные представления), будет ли изменена частота слова из -за этого.

Например, если у меня есть слово «олень» в моем корпусе 4 раза, и если я установил min_count Чтобы быть 5, обучение модели 3 раза неоднократно считает «оленя» с частотой 12 и будет включена в модель?

Если он знает, что это тот же корпус, то как можно дифференцировать, если я переучите модель новым корпусом.

Это было полезно?

Решение

На вопрос был отвечен Гордон Мор.

Обычно есть одно чтение о корпусе для создания словаря (что включает в себя инициализацию модели на основе учебного словаря), а затем любое количество дополнительных проходов для обучения. Только после одного сканирования словарного лета min_count для обрезки).

Если вы предоставляете корпус (как перезапущенный итератор) в качестве одного из аргументов для начального создания модели Word2VEC, все эти шаги выполняются автоматически: одно из них (через корпус (через build_vocab() метод) для сбора слов/количества, затем один или несколько проходов (как управляется параметром «итера» и сделан через train() метод) для обучения. Тем не менее, только количество для единого прохода над поставленным корпусом имеет значение для частотных решений.

Если вы не предоставляете корпус в модельной инициализации, вы можете позвонить build_vocab(…) а также train(…) самим собой. Это только то, что передано build_vocab() Это имеет значение для оставшихся частот (и оценка размера корпуса). Затем вы можете позвонить train(…) другими способами или неоднократно - он просто продолжает использовать словарный запас из одного ранее build_vocab(…) вызов.

(Обратите внимание, что train(…) Пытается повторно использовать размер однопроходного корпуса, запоминающийся из сканирующего прохода, чтобы дать точное оценку прогресса и запланировать распад учебной скорости. alpha. Анкет Так что, если вы даете вариант другого размера train(…), вы также должны использовать другие дополнительные параметры, чтобы дать ему намек на размер.)

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top