对于一个语言学的课程中,我们实现一部分讲话(POS)标记使用隐藏的马模型,其中隐藏的变量的语音部分。我们训练有素的系统,在有些标记的数据,然后进行了测试,比较我们的研究结果的黄金数据。

它已经能够火车的嗯没有标记的培训?

有帮助吗?

解决方案

在理论上你可以做到这一点。在这种情况下,您会使用鲍姆-韦尔奇-算法。它描述得非常好 Rabiner的教程嗯.

然而,具有应用于马氏的部分讲话,误差你得到与标准形式的不会那么令人满意。它是一种形式的期望的最大化,它只收到局部最大值。基于规则的办法打败马氏的手下来,请参考.

我相信自然语言工具包NLTK python有嗯实现确切的目的。

其他提示

NLP是在几年前,但我相信没有标记的HMM可以帮助确定正克符号发射/状态转移概率(即什么是“世界”的可能性之后,“你好”发生),但不零件的词性。它需要标注语料学习POS如何相互关联。

如果我的方式关闭这个让我知道在评论!

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top