センチメント分析への最良のアルゴリズムアプローチ[閉じた

https://stackoverflow.com/questions/4199441

11-10-2019
|

質問

私の要件は、ニュース記事を取り入れ、それらが主題について肯定的か否定的かを判断することです。以下に概説するアプローチを取っていますが、NLPを読み続けているかもしれません。私が読んだことはすべて、NLPが事実から意見を検出することを指摘していますが、私の場合はそれほど重要ではないと思います。私は2つのことを疑問に思っています：

1）なぜ私のアルゴリズムは機能しないのですか？（私はおそらく皮肉が落とし穴になることを知っていますが、私たちが得るニュースのタイプでそれがあまり起こることはありません）

2）NLPはどのように役立ちますか、なぜそれを使用する必要があるのですか？

私のアルゴリズムアプローチ（肯定的、否定的、否定的な言葉の辞書があります）：

1）記事で肯定的な単語と否定的な単語の数を数える

2）否定的な単語が肯定的または否定的な単語の2つまたは3つの単語で見つかった場合、つまり（つまり、最高ではない）スコアを無効にします。

3）スコアに、各単語に手動で割り当てられた重みを掛けます。（開始する1.0）

4）正と負の合計を合計して、感情スコアを取得します。

解決

特に何もないと思います 間違い あなたのアルゴリズムを使用すると、それはかなり簡単で実用的な方法ですが、それが間違いを犯すことになる多くの状況があります。

あいまいな感情の言葉 - 「この製品はひどく機能する」vs.「この製品はひどく良い」
否定を逃した - 「私は何百万年もの間、この製品は買う価値があると言うことはありません」
引用/間接テキスト - 「私の父はこの製品はひどいと言いますが、私は同意しません」
比較 - 「この製品は頭の穴と同じくらい便利です」
微妙なもの - 「この製品はugい、ゆっくりと、刺激的ではありませんが、仕事をするのは市場で唯一のことです」

私はニュース記事の代わりに例に製品のレビューを使用していますが、あなたはアイデアを得ています。実際、ニュース記事はおそらく議論の両側を見せようとすることが多く、特定のスタイルを使用してポイントを伝える傾向があるため、おそらくより困難です。最後の例は、たとえば意見の部分では非常に一般的です。

NLPがこれのいずれかを支援する限り、単語感覚の乱雑さ（またはただスピーチの一部のタグ付け）（1）、構文解析（2）、ある種の長期依存関係に役立つかもしれませんチャンキング（3）に役立つかもしれません。それはすべて研究レベルの仕事ですが、あなたが直接使用できることを私が知っていることは何もありません。問題（4）と（5）はずっと難しいです。この時点で手を伸ばしてあきらめます。

私はあなたが持っているアプローチに固執し、出力を注意深く見て、それがあなたが望むことをしているかどうかを確認します。もちろん、それはあなたが何を望んでいるかという問題を提起します。

他のヒント

私のお気に入りの例は「本を読むだけ」です。明示的な感情語は含まれておらず、コンテキストによって大きく依存しています。映画のレビューで編成されている場合、それは、ムーヴィー・サック・アット・アット・オブ・オブ・オブ・オブ・オブあなたの時代のものを意味します。しかし、それが本のレビューにある場合、それは肯定的な感情をもたらします。

そして、「これは市場で最小の[モバイル]電話です」。 '90年に戻って、それは大きな賞賛でした。今日、それはそれが小さすぎる方法であることを示しているかもしれません。

これは、感情分析の複雑さを得るために始める場所だと思います。 http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html （コーネルのリリアン・リーによる）。

オピニオンファインダーシステムとそれを説明している論文を見つけることができます。で利用できます http://www.cs.pitt.edu/mpqa/ 意見分析のための他のリソース。

ドキュメントレベルでの極性分類を超えていますが、文レベルで個々の意見を見つけてみてください。

あなたが言及したすべての質問に対する最良の答えは、本を読んでいることです 「感情分析と意見採掘」 教授によって Bing Liu. 。この本は、センチメント分析の分野で独自の最高です。それは素晴らしいです。それを見てみると、あなたのすべての「なぜ」と「方法」の質問に対する答えが見つかります！

マシンラーニングテクニックはおそらく優れています。

ホワイトロー、ガーグ、アルガモン否定に対処するためにあなたと同様の手法を使用して、92％の精度を達成する手法を持ち、テキスト分類のためにベクターマシンをサポートします。

どのように似たようなことを試してみませんかスパマサシンスパムフィルターが機能しますか？意図採掘と意見採掘の間に本当に大きな違いはありません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow