タグ付きコーパスデータのない隠れマルコフモデルをトレーニング

https://stackoverflow.com/questions/1916892

20-09-2019
|

質問

言語学のコースのために我々は隠された変数は、品詞た隠れマルコフモデルを使用して、スピーチ（POS）タグ付けの一部を実装しました。我々はそれをテストし、金のデータと我々の結果を比較し、いくつかのタグ付けされたデータにシステムを訓練し、かつます。

タグ付けされたトレーニングセットせずにHMMを訓練することは可能だったでしょうか？

解決

理論的には、あなたはそれを行うことができます。その場合、あなたは、バウム・ウェルチ・アルゴリズムを使用します。それは<のhref = "http://www.google.de/url?sa=t&source=web&ct=res&cd=1&ved=0CAcQFjAA&url=http%3A%2F%2Fwww.cs.ubc.ca%2Fに非常によく記述されています〜murphyk％2FBayes％2Frabiner.pdf＆EI = W9AqS5L3FMnG_gaQ_7SECQ＆USG = AFQjCNHeXLhTHmuKUXKKCHYSs58TxVGfZg＆SIG2 = WbhBGy_vxbfdRXicyae0Rg」のrel = "nofollowをnoreferrer"> RabinerのHMMチュートリアルでます。

ただし、音声の一部に適用されたHMMを持つ、あなたは標準形式で取得エラーはそれほど満足できなくなります。それだけで極大値に収束する期待値最大化の一形態です。ルールベースのアプローチはIIRC、HMMに手を打ち負かします。

私は、Pythonのための自然言語ツールキットNLTKが、その正確な目的のためのHMMの実装を持っていると信じています。

他のヒント

NLPは数年前でしたが、私は（「hello」の後に発生した「世界」のオッズは何IE）のnグラムのシンボル放射/状態遷移確率を決定するのに役立つ可能性がHMMをタグ付けすることなく、信じてではなく、品詞。これは、POSの相互関係方法を学ぶためにタグ付けされたコーパスを必要とします。

私は私がコメントで知らせて！途中オフこの上だ場合、

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow