LDA有两个超参数,调整它们会改变引起的主题。

Alpha和Beta超标剂对LDA有什么贡献?

如果一个或另一个超参数增加或减少,主题会如何变化?

为什么它们是超级参数,而不仅仅是参数?

有帮助吗?

解决方案

DIRICHLET分布是多元分布。我们可以将dirichlet的参数表示为表格〜$ frac {1} {b(a)} cdot prod limits_ {i} x_i^x_i^{a_ {a_ {i-1}} $ ,其中$ a $是参数的$ k $的向量,而$ sum x_i = 1 $。

现在,LDA使用了一些构造,例如:

  • 文档可以具有多个主题(由于这种多重性,我们需要Dirichlet分发);并且有一个差异的分布,该分布模拟了这种关系
  • 当您在文档之外考虑它们时,单词也可以属于多个主题。因此,在这里我们需要另一个dirichlet来建模

前两个是您从数据中真正看不到的分布,这就是为什么被称为潜在或隐藏的原因。

现在,在贝叶斯推论中,您使用贝叶斯规则来推断后验概率。为简单起见,假设您有数据$ x $,并且您拥有该数据的模型,该数据由某些参数$ theta $。为了推断此参数的值,在完整的贝叶斯推理中,您将使用贝叶斯规则使用$$ p( theta | x)= frac {p(x | theta)p( theta | alpha)}} {p(x | alpha)} iff text {posterior概率} = frac { text {likeLihood} times times text text {先验概率}}} $请注意,这里是$ alpha $。这是您对此分布的最初信念,也是先前分布的参数。通常,这是以这种方式选择共轭的(因此,后验分布与先前的分布相同),并且通常会编码某些知识,如果您有一个知识或最大的熵(如果您一无所知) 。

调用了先验的参数 超参数. 。因此,在LDA中,主题分布,文档和单词上都具有通讯先验,通常用alpha和beta表示,并且因为先前分布的参数称为HyperParameters。

现在关于选择先验。如果绘制一些dirichlet发行版,您会注意到,如果单个参数$ alpha_k $具有相同的值,则PDF在由$ x $ values定义的单纯形中对称,这是PDF的最小值或最大值,是中心位于中心位于。

如果所有$ alpha_k $具有低于单位的值

或者,如果所有值$ alpha_k $都是相同的,大于1的最大值将在中心找到

很容易看出,如果$ alpha_k $的值不等于对称性,则将发现最大值附近的最大值。

另外,请注意,PRIORS参数的值会产生分布的平滑PDF,因为参数的值接近1。因此,如果您有充分的信心,以您以高度的信心,而不是以高度的方式分配某些东西如果您没有这样的知识,则可以使用远离绝对值的值的值,而不是附近1的知识。很容易看出为什么1个在分布本身的公式中发挥了这种作用。

理解这一点的另一种方法是查看先前的事先知识。同时,您可能会认为先前编码一些先前看到的数据。算法本身没有看到这些数据,它被您看到,您学到了一些东西,您可以根据自己所知道的(学到的)对先验进行建模。因此,在先前的参数(超参数)中,您还编码您看到的数据集有多大,因为$ alpha_k $的总和也可以是这个或多或少的虚构数据集的大小。因此,先前的数据集越大,信心就越大,您可以选择的$ alpha_k $的值就越大,则表面接近最大值的越大,这也意味着更少的疑问。

希望它能有所帮助。

其他提示

假设对称的dirichlet分布(为简单起见),低α值使每个文档仅由少数几个主题组成(而高价值将返回许多相对较大的主题)。同样,低Beta值使每个主题仅由几个主导单词组成。

许可以下: CC-BY-SA归因
scroll top