Какой вклад вносят альфа- и бета-гиперпараметры в скрытое распределение Дирихле?

https://datascience.stackexchange.com/questions/199

16-10-2019
|

Вопрос

LDA имеет два гиперпараметра, настройка которых изменяет индуцированные темы.

Какой вклад вносят альфа- и бета-гиперпараметры в LDA?

Как меняется тема, если тот или иной гиперпараметр увеличивается или уменьшается?

Почему это гиперпараметры, а не просто параметры?

Решение

Распределение Дирихле - это многомерное распределение.Мы можем обозначить параметры Дирихле как вектор размера K вида ~$\frac{1}{B(a)} \cdot\prod\limits_{i} x_i^{a_{i-1}}$, где $a$ - вектор размера $K$ параметров, а $\sum x_i = 1$.

Теперь LDA использует некоторые конструкции, такие как:

документ может иметь несколько тем (из-за этой множественности нам нужно распределение Дирихле).;и существует распределение Дирихле, которое моделирует это соотношение
слова также могут принадлежать нескольким темам, если рассматривать их вне документа;итак, здесь нам нужен другой Дирихле, чтобы смоделировать это

Предыдущие два - это распределения, которые вы на самом деле не видите по данным, вот почему они называются латентными, или скрытыми.

Теперь, в байесовском выводе, вы используете правило Байеса для вывода апостериорной вероятности.Для простоты предположим, что у вас есть данные $ x $ и у вас есть модель для этих данных, управляемая некоторыми параметрами $ \ theta $.Чтобы вывести значения для этих параметров, при полном байесовском выводе вы выведете апостериорную вероятность этих параметров, используя правило Байеса с $$ p (\ theta | x) = \ frac {p (x | \ theta)p(\ theta | \ alpha)}{p (x | \ alpha)} \iff \ text {апостериорная вероятность} = \frac {\ text {вероятность} \ times \ text {предварительная вероятность}} {\ text {предельная вероятность}} $$ Обратите внимание, что здесь идет $ \ alpha $.Это ваше первоначальное мнение об этом распределении и является параметром предыдущего распределения.Обычно это выбирается таким образом, чтобы иметь сопряженный априор (поэтому распределение апостериора совпадает с распределением априора) и часто для кодирования некоторых знаний, если они у вас есть, или для получения максимальной энтропии, если вы ничего не знаете.

Параметры предыдущего вызываются гиперпараметры.Итак, в LDA оба тематических распределения, по документам и по словам, также имеют соответствующие априорные значения, которые обычно обозначаются буквами alpha и beta, и поскольку являются параметрами предыдущих распределений, называются гиперпараметрами.

Теперь о выборе судимостей.Если вы построите график некоторых распределений Дирихле, вы заметите, что если отдельные параметры $ \ alpha_k $ имеют одинаковое значение, pdf будет симметричным в симплексе, определяемом значениями $ x $, которые являются минимальными или максимальными для pdf, находящегося в центре.

Если все $ \ alpha_k $ имеют значения меньше единицы, то максимум находится в углах

или, может быть, если все значения $ \ alpha_k $ одинаковы и больше 1, максимум будет найден в центре, например

Легко видеть, что если значения для $ \ alpha_k $ не равны, симметрия нарушается, и максимум будет найден вблизи больших значений.

Дополнительно, пожалуйста, обратите внимание, что значения для основных параметров создают плавные PDF-файлы распределения, поскольку значения параметров близки к 1.Таким образом, если у вас есть большая уверенность в том, что что-то четко распределено известным вам способом, с высокой степенью достоверности, то следует использовать значения, далекие от 1 по абсолютному значению, если у вас нет такого рода знаний, то значения, близкие к 1, будут кодировать этот недостаток знаний.Легко понять, почему 1 играет такую роль в распределении Дирихле, исходя из формулы самого распределения.

Другой способ понять это - увидеть, что prior кодирует предварительные знания.В то же время вы можете подумать, что prior кодирует некоторые ранее просмотренные данные.Эти данные не были замечены самим алгоритмом, они были замечены вами, вы чему-то научились, и вы можете предварительно смоделировать их в соответствии с тем, что вы знаете (усвоили).Таким образом, в предыдущих параметрах (гиперпараметрах) вы также кодируете, насколько велик этот набор данных, который вы априори видели, потому что сумма $ \ alpha_k $ может быть такой же, как размер этого более или менее воображаемого набора данных.Таким образом, чем больше предыдущий набор данных, тем больше достоверность, чем большие значения $ \ alpha_k $ вы можете выбрать, тем острее поверхность вблизи максимального значения, что также означает меньше сомнений.

Надеюсь, это помогло.

Другие советы

Предполагая, что симметричные распределения дирихле (для простоты) низкое альфа -значение придает больший вес на наличие каждого документа, состоящего только из нескольких доминирующих тем (тогда как высокое значение вернет гораздо больше относительно доминирующих тем). Точно так же низкое бета -значение придает больший вес на каждую тему, состоящую только из нескольких доминирующих слов.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange