質問

業界特有の文章(つまり、映画レビュー)「ポジティブ」と「ネガティブ」の比較。以前に OpenNLP などのライブラリを見たことがあるが、それは低レベルすぎて、基本的な文の構成を提供するだけだ。必要なのは、より高いレベルの構造です。- うまくいけば、WordListsを使用してください - うまくいけば、私のデータのセットでトレーニング可能です

ありがとう!

役に立ちましたか?

解決

あなたが探しているものは一般的に呼ばれています 感情分析. 。通常、センチメント分析は皮肉や皮肉などの微妙な点を扱うことができませんが、大量のデータを投入するとかなりうまくいきます。

感情分析には通常、かなりの前処理が必要です。少なくともトークン化、文境界検出、品詞タグ付け。場合によっては、構文解析が重要になることがあります。これを適切に行うことは、計算言語学の研究分野全体であり、最初に時間をかけてこの分野を研究しない限り、独自の解決策を考え出すことはお勧めしません。

OpenNLP には感情分析を支援するツールがいくつかありますが、より本格的なものが必要な場合は、 リンパイプ ツールキット。いくつかの SA 機能が組み込まれており、優れた チュートリアル. 。また、独自のデータセットでトレーニングすることもできますが、それが完全に自明であるとは考えないでください :-)。

この用語をグーグルで検索すると、参考になるリソースが見つかるかもしれません。もっと具体的な質問があれば、聞いてください。私は nlp タグを注意深く監視しています ;-)

他のヒント

センチメント分析のアプローチの中には、他のテキスト分類タスクで一般的な戦略を使用するものもあります。最も一般的なのは、映画レビューをワード ベクトルに変換し、それをトレーニング データとして分類器アルゴリズムに入力することです。ここでは、最も一般的なデータ マイニング パッケージが役に立ちます。これを見てみるのもいいかもしれません 感情分類に関するチュートリアル オープンソースを使用して実験を行う方法を示す RapidMiner ツールキット.

ちなみに、あるのは、 良いデータセット 映画レビューに関する意見の検出に関連する研究目的で利用可能です。IMDB ユーザーのレビューに基づいており、多くのレビューを確認できます。 関連する研究活動 この分野とデータセットの使用方法について。

これらの方法の有効性は統計的な観点からのみ判断できるため、誤分類や意見を検出するのが難しいケースが存在することがほぼ想定できることを心に留めておいてください。このスレッドですでに気づいたように、皮肉や皮肉のようなものを検出するのは実際には非常に困難です。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top