NLPで固有名詞を認識するための戦略
-
03-07-2019 - |
質問
自然言語処理(NLP)の詳細に興味があり、現在、辞書認識に基づいていないテキストの固有名詞を認識するための戦略はありますか?また、現在の辞書ベースの方法を説明するリソースを説明したり、リソースにリンクしたりできますか? NLPの権威ある専門家は誰ですか、またはこの主題に関する決定的なリソースは何ですか?
解決
テキスト内の単語の適切な品詞を決定するタスクは、品詞タグ付け。たとえば、 Brill tagger は、辞書(語彙)の単語とコンテキストルールの混合を使用します。このタスクの重要な最初の辞書の単語のいくつかはストップワードだと思います。 単語の品詞を(ほとんど正しい)入手したら、より大きな構造の構築を開始できます。 この業界志向の本は、名詞句(NP)の認識と名前付きエンティティの認識を区別します。 教科書について:アレンの自然言語理解は良いですが、少し古めかしい本です。 統計自然言語処理の基礎は、統計NLPの優れた紹介です。 音声と言語処理はもう少し厳密で、おそらくより権威があります。 計算言語学協会は、計算言語学の主要な科学コミュニティです。
他のヒント
辞書ベースのアプローチに加えて、2つの他の要素が思い浮かびます:
- パターンベースのアプローチ(単純な形式:大文字で始まるものはすべて固有名詞です)
- 機械学習アプローチ(トレーニングコーパスで固有名詞をマークし、分類子をトレーニングする)
このフィールドは、主に名前付きエンティティ抽出と呼ばれ、多くの場合情報抽出のサブフィールドと見なされます。 NLPのさまざまな分野の適切な出発点は、通常、計算言語学ハンドブックの対応する章です。 :
(ソース: oup.com )
「名前付きエンティティの認識」を検索してみてください。これは、この種のことについてNLPの文献で使用されている用語です。
辞書ベースの意味に依存します。
たとえば、1つの戦略は、辞書に 存在しないものを取り上げ、それらが固有名詞であるという前提で進めようとすることです。これが賢明な解析につながる場合は、仮に検証された仮定を考慮して続行します。そうでない場合は、そうではないと結論付けます。
その他のアイデア:
- 主題の位置では、決定者のない単純な主題が適切な候補です。
- 前置詞句の同上
- どのポジションにおいても、所有権のある決定者(「ボブの姉妹」のボブなど)の基礎は良い候補です
-MarkusQ
推奨されるいくつかのツールキット: 1. Opennlp:タスク用の名前付きエンティティ認識コンポーネントがあります 2. LingPipe:NERコンポーネント 3.スタンフォードNLPパッケージ:アカデミックな使用に最適なパッケージであり、商業用ではありません。 4. nltk:Python NLPパッケージ
「誰が法案の門なのか」などの文がある場合 また、スピーチタガーの一部をそれに適用する場合。 次のように答えます
" who / WP is / VBZ bill / NN gates / NNS?/ "
Uはこれをオンラインで試すことができます http://cst.dk/online/pos_tagger/uk/
これで、この文のすべての名詞がわかります。これで、アルゴリズムを使用してこの名詞を簡単に抽出できます。自然言語処理を使用している場合は、Pythonを使用することをお勧めします。 NLTK(Natural language toolkit)を使用して作業できます。
自然言語処理の実装に興味があり、Pythonがプログラミング言語である場合、これは非常に有益なリソースになる可能性があります: http://www.youtube.com/watch?v=kKe4M4iSclc
これはベンガル語用ですが、固有名詞として識別される一般的な手順を描画できます。これがあなたのお役に立てば幸いです。 次のリンクを確認してください。 http://www.mecs-press.org/ijmecs /ijmecs-v6-n8/v6n8-1.html