培训隐马模型没有标记语料库的数据

https://stackoverflow.com/questions/1916892

20-09-2019
|

题

对于一个语言学的课程中，我们实现一部分讲话(POS)标记使用隐藏的马模型，其中隐藏的变量的语音部分。我们训练有素的系统，在有些标记的数据，然后进行了测试，比较我们的研究结果的黄金数据。

它已经能够火车的嗯没有标记的培训？

解决方案

在理论上你可以做到这一点。在这种情况下，您会使用鲍姆-韦尔奇-算法。它描述得非常好 Rabiner的教程嗯.

然而，具有应用于马氏的部分讲话，误差你得到与标准形式的不会那么令人满意。它是一种形式的期望的最大化，它只收到局部最大值。基于规则的办法打败马氏的手下来，请参考.

我相信自然语言工具包NLTK python有嗯实现确切的目的。

其他提示

NLP是在几年前，但我相信没有标记的HMM可以帮助确定正克符号发射/状态转移概率（即什么是“世界”的可能性之后，“你好”发生），但不零件的词性。它需要标注语料学习POS如何相互关联。

如果我的方式关闭这个让我知道在评论！

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow