Вопрос

Я пытаюсь использовать тему моделирования с молотком, но есть вопрос.

Как мне знать, когда мне нужно восстановить модель? Например, у меня есть этот объем документов, которые я пополз из сети, используя тему моделирования, предоставляемую Mallet, я мог бы создать модели и вывести с ним документы. Но сверхурочные, с новыми данными, которые я пополз, могут появиться новые предметы. В этом случае, как я узнаю, должен ли я восстановить модель от начала до тока?

Я думал о том, чтобы сделать это для документов, которые я пополз каждый месяц. Может кто-нибудь, пожалуйста, посоветуете?

Итак, это тема моделирования более подходящего для текста под фиксированным количеством тем (входной параметр K, NO. Темы). Если нет, как мне действительно определить, какой номер использовать?

Это было полезно?

Решение

Ответы на ваши вопросы зависят от большой части на виду данных, с которыми вы работаете, а размер корпуса.

Что касается частоты, я боюсь, что вам просто нужно будет оценить, как часто ваши данные изменяются значимым образом и реконструируют при этом. Вы можете начать с недели и посмотреть, приведут ли новые данные к значительно разной модели. Если нет, попробуйте две недели и так далее.

Количество тем, которые вы выбираете, определяется тем, что вы ищете в модели. Чем выше число, тем более мелкозернистые результаты. Если вы хотите широкий обзор того, что в вашем корпусе, вы можете выбрать, скажем, 10 тем. Чтобы приблизительно взглянуть, вы можете использовать 200 или некоторые другие соответствующим образом высоким числом.

Надеюсь, это поможет.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top