Alpha和Beta超参数在潜在的Dirichlet分配中有什么贡献？

https://datascience.stackexchange.com/questions/199

16-10-2019
|

题

LDA有两个超参数，调整它们会改变引起的主题。

Alpha和Beta超标剂对LDA有什么贡献？

如果一个或另一个超参数增加或减少，主题会如何变化？

为什么它们是超级参数，而不仅仅是参数？

解决方案

DIRICHLET分布是多元分布。我们可以将dirichlet的参数表示为表格〜$ frac {1} {b（a）} cdot prod limits_ {i} x_i^x_i^{a_ {a_ {i-1}} $ ，其中$ a $是参数的$ k $的向量，而$ sum x_i = 1 $。

现在，LDA使用了一些构造，例如：

文档可以具有多个主题（由于这种多重性，我们需要Dirichlet分发）；并且有一个差异的分布，该分布模拟了这种关系
当您在文档之外考虑它们时，单词也可以属于多个主题。因此，在这里我们需要另一个dirichlet来建模

前两个是您从数据中真正看不到的分布，这就是为什么被称为潜在或隐藏的原因。

现在，在贝叶斯推论中，您使用贝叶斯规则来推断后验概率。为简单起见，假设您有数据$ x $，并且您拥有该数据的模型，该数据由某些参数$ theta $。为了推断此参数的值，在完整的贝叶斯推理中，您将使用贝叶斯规则使用$$ p（ theta | x）= frac {p（x | theta）p（ theta | alpha）}} {p（x | alpha）} iff text {posterior概率} = frac { text {likeLihood} times times text text {先验概率}}} $请注意，这里是$ alpha $。这是您对此分布的最初信念，也是先前分布的参数。通常，这是以这种方式选择共轭的（因此，后验分布与先前的分布相同），并且通常会编码某些知识，如果您有一个知识或最大的熵（如果您一无所知）。

调用了先验的参数 超参数. 。因此，在LDA中，主题分布，文档和单词上都具有通讯先验，通常用alpha和beta表示，并且因为先前分布的参数称为HyperParameters。

现在关于选择先验。如果绘制一些dirichlet发行版，您会注意到，如果单个参数$ alpha_k $具有相同的值，则PDF在由$ x $ values定义的单纯形中对称，这是PDF的最小值或最大值，是中心位于中心位于。

如果所有$ alpha_k $具有低于单位的值

或者，如果所有值$ alpha_k $都是相同的，大于1的最大值将在中心找到

很容易看出，如果$ alpha_k $的值不等于对称性，则将发现最大值附近的最大值。

另外，请注意，PRIORS参数的值会产生分布的平滑PDF，因为参数的值接近1。因此，如果您有充分的信心，以您以高度的信心，而不是以高度的方式分配某些东西如果您没有这样的知识，则可以使用远离绝对值的值的值，而不是附近1的知识。很容易看出为什么1个在分布本身的公式中发挥了这种作用。

理解这一点的另一种方法是查看先前的事先知识。同时，您可能会认为先前编码一些先前看到的数据。算法本身没有看到这些数据，它被您看到，您学到了一些东西，您可以根据自己所知道的（学到的）对先验进行建模。因此，在先前的参数（超参数）中，您还编码您看到的数据集有多大，因为$ alpha_k $的总和也可以是这个或多或少的虚构数据集的大小。因此，先前的数据集越大，信心就越大，您可以选择的$ alpha_k $的值就越大，则表面接近最大值的越大，这也意味着更少的疑问。

希望它能有所帮助。

其他提示

假设对称的dirichlet分布（为简单起见），低α值使每个文档仅由少数几个主题组成（而高价值将返回许多相对较大的主题）。同样，低Beta值使每个主题仅由几个主导单词组成。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange