監視されていない感情分析

https://stackoverflow.com/questions/3920759

29-09-2019
|

質問

センチメント分析システムが実際に機能する前に、「ポジティブ」または「ネガティブ」として分類される最初のテキストセットの必要性を説明する多くの記事を読んでいます。

私の質問は、「肯定的な」形容詞と「ネガティブ」の形容詞の初歩的なチェックをしようとした人は、「幸せでない」という分類を避けるために単純な否定を考慮して、肯定的なものとして分類しないようにしましたか？もしそうなら、なぜこの戦略が現実的でない理由を議論する記事はありますか？

解決

a ピーター・ターニーによるクラシックペーパー（2002）単語のみを使用して、監視されていない感情分析（肯定的/否定的分類）を行う方法を説明しています 優れた と 貧しい シードセットとして。ターニーはそれを使用します相互情報これら2つの形容詞を持つ他の言葉のうち、74％の精度を達成します。

他のヒント

私はあなたが説明しているような訓練されていないセンチメント分析をしようとしていませんが、私の頭の上から外れて、あなたは問題を過度に証明していると思います。単に形容詞を分析するだけでは、テキストの感情を十分に把握するのに十分ではありません。たとえば、「愚か」という言葉を考えてみましょう。単独で、あなたはそれを否定的に分類しますが、製品のレビューが「... [x]製品が最初にこの機能を考えないことで競合他社を愚かに見せてくれるようにするならば...」。言葉が見えるより大きな文脈は、このようなことで間違いなく重要です。これが、訓練されていない単語の袋のアプローチだけで（さらに限られた袋の袋をはまらない）、この問題に適切に取り組むのに十分ではない理由です。

事前に分類されたデータ（「トレーニングデータ」）は、問題がテキストが肯定的な感情であるか否定的な感情であるかを判断しようとすることから、テキストが肯定的なテキストまたは否定的なテキストに類似しているかどうかを判断しようとすることになるという点で役立ちます。そのように分類します。もう1つの大きなポイントは、感情分析などのテキスト分析は、ドメインに応じてテキストの特性の違いによって大きく影響を受けることが多いことです。これが、訓練するための適切なデータセットを持っている理由（つまり、あなたが働いているドメイン内からの正確なデータ、そしてあなたが分類しなければならないテキストを代表することを願っています）は、良いものを構築するのと同じくらい重要ですに分類するシステム。

正確には記事ではありませんが、それが役立つことを願っています。

Larsmansが言及したTurney（2002）の論文は、良い基本的なものです。新しい研究では、 Liと彼[2009 使用を使用してアプローチを紹介します潜在的なディリクレの割り当て（LDA）記事の全体的な感情とトピックを完全に監視されていない方法で同時に分類できるモデルをトレーニングする。彼らが達成する精度は84.6％です。

感情の辞書を使用してキーワードを見つけて、文レベルでセンチメントラベルを予測しました。語彙（非ドメイン依存）の一般性を考えると、結果は約61％でした。紙は私のホームページで入手できます。

やや改善されたバージョンでは、否定副詞が考慮されました。 Emolibという名前のシステム全体は、デモで利用できます。

http://dtminredis.housing.salle.url.edu:8080/emolib/

よろしく、

デビッド、

これが役立つかどうかはわかりませんが、Jacob Perkin'sを調べたいと思うかもしれませんブログ投稿センチメント分析にNLTKを使用することについて。

レビューで意見採掘のために、センチメント分析のいくつかの方法を試しました。私にとって最適なのは、Liu Bookで説明されている方法です。 http://www.cs.uic.edu/~liub/webminingbook.html この本では、Liu and Othersでは、多くの戦略を比較し、感情分析と意見採掘に関するさまざまな論文について議論しました。

私の主な目標は意見に特徴を抽出することでしたが、この機能の肯定的および否定的な分類を検出するためにセンチメント分類器を実装しました。

私は、前処理（単語トークン化、POSタグ付け）とTrigramsの作成にNLTKを使用しました。また、このTakeit内のベイジアン分類子を使用して、Liuが特定していた他の戦略と比較しました。

この方法の1つは、この情報を表現するすべてのTrigrRAMすべてのPOS/NEGとしてのタグ付けに依存しており、このデータにいくつかの分類器を使用しています。私が試した他の方法、そしてより良い作業（私のデータセットの約85％の精度）は、文のすべての単語と単語のPMIのスコアの合計（時間厳守）の合計を計算することでした 優れている/貧しい Pos/Negクラスの種として。

センチメント分析には、テキストの塊の根底にある「アバドネス」を発見しようとする他の種類のテキスト分析と同様に、魔法の「ショートカット」はありません。単純な「形容詞」チェックまたは同様のアプローチを介して実証済みのテキスト分析方法をショートカットしようとすると、曖昧さ、誤った分類などにつながります。ソース（Twitterなど）がより純粋なほど、問題はより困難です。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow