Как вы работаете с скрытым распределением дирихлета на практике

https://datascience.stackexchange.com/questions/16994

dirichlet

22-10-2019
|

Вопрос

Нужно предоставить LDA с предопределенным количеством скрытых тем. Скажем, у меня есть текстовое корпус, в котором я предполагаю, что есть 10 основных тем, все состоит из 10 незначительных подтопиков. Моя цель - иметь возможность определить близость между документами.

1) Как вы оцениваете количество тем на практике? Эмпирически? С другим методом, таким как иерархический процесс дирихлета (HDP)?

2) Вы строите несколько моделей? Для основных и второстепенных тем? Есть ли способ запечатлеть иерархическую структуру тем?

Решение

Существует много методов выполнения этой оптимизации, а именно, выбора оптимального количества тем для снабжения для LDA, и по этой теме было написано многие статьи.

Некоторые из них отмечают, каждая из которых определяет метрики, с помощью которых можно оценить модели LDA по качеству тем:

Раджкумар Арун, В. Суреш, Се Вени Мадхаван и М.Н. Нарасимха Мурти. 2010. При поиске естественного количества тем с скрытым распределением дирихле: некоторые наблюдения. В достижениях в области обнаружения знаний и интеллектуального анализа данных Мохаммед Дж. Заки, Джеффри Сюй Ю, Балараман Равиндран и Викрам Пуди (ред.). Springer Berlin Heidelberg, 391–402. http://doi.org/10.1007/978-3-642-13657-3_43
Цао Хуан, Ся Тянь, Ли Цзинтао, Чжан Юндонг и Тан Шэн. 2009. Метод на основе плотности для адаптивного выбора модели LDA. Нейрокомпьютинг - 16 -й Европейский симпозиум по искусственным нейронным сетям 2008 72, 7–9: 1775–1781. http://doi.org/10.1016/j.neucom.2008.06.011
Ромен Девауд, Эрик Санджуан и Патрис Белло. 2014. Точное и эффективное моделирование латентной концепции для специального поиска информации. Документ Numérique 17, 1: 61–84. http://doi.org/10.3166/dn.17.1.61-84
Томас Л. Гриффитс и Марк Стейверс. 2004. Поиск научных тем. Труды Национальной академии наук 101, Suppl 1: 5228–5235. http://doi.org/10.1073/pnas.0307752101

По счастливой случайности, если вы используете R, эти метрики уже были собраны для вас в удобном пакете под названием Ldatuning который предоставляет набор утилит и метрик, чтобы помочь настроить правильное количество тем в моделях LDA.

В качестве альтернативы, если вы используете Python, Генсим Пакет может предоставить вам много коммунальных услуг для помощи. Например, пакет реализует метрику, которую они называют «когерентностью темы», которую, как они утверждают, соответствует примерно ясность тематического различия для человека Среди многих Другие утилиты для настройки.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange