NLP:定性的に「肯定的な」文と「否定的な」文

https://stackoverflow.com/questions/122595

02-07-2019
|

質問

業界特有の文章（つまり、映画レビュー）「ポジティブ」と「ネガティブ」の比較。以前に OpenNLP などのライブラリを見たことがあるが、それは低レベルすぎて、基本的な文の構成を提供するだけだ。必要なのは、より高いレベルの構造です。- うまくいけば、WordListsを使用してください - うまくいけば、私のデータのセットでトレーニング可能です

ありがとう！

解決

あなたが探しているものは一般的に呼ばれています感情分析. 。通常、センチメント分析は皮肉や皮肉などの微妙な点を扱うことができませんが、大量のデータを投入するとかなりうまくいきます。

感情分析には通常、かなりの前処理が必要です。少なくともトークン化、文境界検出、品詞タグ付け。場合によっては、構文解析が重要になることがあります。これを適切に行うことは、計算言語学の研究分野全体であり、最初に時間をかけてこの分野を研究しない限り、独自の解決策を考え出すことはお勧めしません。

OpenNLP には感情分析を支援するツールがいくつかありますが、より本格的なものが必要な場合は、リンパイプツールキット。いくつかの SA 機能が組み込まれており、優れたチュートリアル. 。また、独自のデータセットでトレーニングすることもできますが、それが完全に自明であるとは考えないでください :-)。

この用語をグーグルで検索すると、参考になるリソースが見つかるかもしれません。もっと具体的な質問があれば、聞いてください。私は nlp タグを注意深く監視しています ;-)

他のヒント

センチメント分析のアプローチの中には、他のテキスト分類タスクで一般的な戦略を使用するものもあります。最も一般的なのは、映画レビューをワードベクトルに変換し、それをトレーニングデータとして分類器アルゴリズムに入力することです。ここでは、最も一般的なデータマイニングパッケージが役に立ちます。これを見てみるのもいいかもしれません感情分類に関するチュートリアルオープンソースを使用して実験を行う方法を示す RapidMiner ツールキット.

ちなみに、あるのは、良いデータセット映画レビューに関する意見の検出に関連する研究目的で利用可能です。IMDB ユーザーのレビューに基づいており、多くのレビューを確認できます。関連する研究活動この分野とデータセットの使用方法について。

これらの方法の有効性は統計的な観点からのみ判断できるため、誤分類や意見を検出するのが難しいケースが存在することがほぼ想定できることを心に留めておいてください。このスレッドですでに気づいたように、皮肉や皮肉のようなものを検出するのは実際には非常に困難です。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow