質問

次のタスクにはモデルが必要です。

POSタグを含む一連の単語。この一連の単語が名詞句であるかどうかを判断したいと思います。

私が考えることができるモデルの1つはうーんです。

名詞句のシーケンスについては、うーん(うーん+)をトレーニングします。それらは名詞句ではないので、うーん(うーん)を試してみます。シーケンスの予測を行うと、P(シーケンス| HMM+)とP(シーケンス| HMM-)を計算できます。前者が大きい場合、このフレーズは名詞句だと思います。そうでない場合はそうではありません。

どう思いますか?そして、この質問に適したモデルは他にありますか?

役に立ちましたか?

解決 3

私の予想は、うーんが適切なモデルではないということです。これは、1つのトークンから次のトークンまでの事前の確率と条件付き確率に基づいて最高の確率を持つタグのシーケンスを導き出すことにより、POSタグを推測するために使用できます。

完全な名詞句については、このモデルがどのように一致するかわかりません。

名詞句には多くのトークンが含まれる可能性があるため、確率に基づいたアプローチは非常に困難です。これにより、非常に多くの組み合わせが可能になります。有用なトレーニング確率を得るには、本当に巨大なトレーニングセットが必要です。

記述に従って、POSタグを介して、通常の表現などの文法ルールのセットを作成することから、すぐに簡単に良いスタートを切ることができます。

http://en.wikipedia.org/wiki/noun_phrase#components_of_noun_phrases

または名詞句の他の言語の説明。

他のヒント

私が理解していることから、あなたはすでに一連の単語のPOSタグを持っています。単語のシーケンスのタグがあると、シーケンスがNPであるかどうかを分類するためにHMMを使用する必要はありません。あなたがする必要があるのは、次の形式のパターンを探すことです。

  1. その後、名詞が続いています

  2. 形容詞に続いて名詞が続きます

  3. その後、形容詞が続いて名詞が続きます

誰かが先ほど言及したように、HMMは新しい単語のシーケンスのPOSタグを取得するために使用されます。しかし、そのためには、うーんを訓練するためにタグ付きコーパスが必要です。 NLTKソフトウェアで利用できるタグ付きコーパスがいくつかあります。

シーケンスが既にタグ付けされている場合は、前の回答に記載されているように、文法ルールを使用してください。

人々はHMMを使用して、POSラベルの文で名詞句をラベル付けしますが、典型的なモデルのセットアップは、あなたが説明している方法では機能しません。

代わりに、セットアップを参照してください 名詞句(PDF)のチャンクタガー統計的認識HMMベースのチャンクタガー(PDF)を使用した名前付きエンティティ認識 例として)は、3つの状態を持つHMMを使用することです。

  • o(NPではない)、
  • B(NPの始まり)、
  • 私は(NPで、しかし始まりではありません)。

文の各単語には、HMMによって州のいずれかが割り当てられます。例として、文は次のとおりです。

/dt boy/nn hit/vt the/dt ball/nn with/pp the/dt red/adj bat/nn ./。

理想的には次のようにラベル付けされている可能性があります。

/dt b 少年/nn ヒット/vt o /dt b ボール/nn /ppで o /dt b 赤/adj bat/nn ./. o

これら3つのHMM状態間の遷移は、シーケンスの動作の事前知識に基づいて制限できます。特に、bからiにのみ移行できますが、他の遷移はすべてゼロの確率で可能です。その後、非標識テキストのコーパスでBaum-Welchを使用して、HMMを訓練することができます(あらゆる種類のチャンクを識別するために - 参照してください。 カスケード有限状態モデル(PDF)を使用した生のテキストからの単純な監視なしの文法誘導 例として)、またはラベル付きテキストのコーパスを使用したある種の最大尤度法(名詞句を特別に探している場合)。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top