サンプルデータまたはWebサービスを使用した文章のNLTK Pythonによる感情分析?

https://stackoverflow.com/questions/2832394

26-09-2019
|

質問

私は感情分析のための NLP プロジェクトに着手しています。

Python 用の NLTK を正常にインストールしました (これには素晴らしいソフトウェアのようです)。ただし、タスクを達成するためにそれをどのように使用できるかを理解するのに苦労しています。

私のタスクは次のとおりです。

まず、1 つの長いデータ (Web サービスからの英国の選挙をテーマにした数百のツイートとしましょう) から始めます。
これを文（または100文字程度以下の情報）に分割したいと思います（Pythonでこれを行うことができると思いますか??）
次に、すべての文を検索して、その文内の特定のインスタンスを探します。「デヴィッド・キャメロン」
次に、各文のポジティブ/ネガティブな感情をチェックし、それに応じてカウントしたいと思います。

注意:私のデータセットは大きいので、正確さについてはあまり心配していませんし、皮肉についてもあまり心配していません。

私が抱えている問題は次のとおりです。

私が見つけることができるすべてのデータセット。NLTK に付属するコーパス映画レビューデータは Web サービス形式ではありません。すでに何らかの処理が行われているようです。私の知る限り、(スタンフォードによる) 処理は WEKA で行われました。NLTK だけでこれらすべてを行うことは不可能ですか?ここでは、すべてのデータセットがすでにポジティブ/ネガティブに整理されています。極性データセット http://www.cs.cornell.edu/People/pabo/movie-review-data/ これはどのように行われるのでしょうか?（感情別に文章を整理すると、やっぱりWEKAでしょうか？または、他の何か？）
なぜWEKAとNLTKが一緒に使用されるのか理解できません。彼らはほとんど同じことをしているようです。最初にセンチメントを見つけるために WEKA でデータを処理する場合、なぜ NLTK が必要なのでしょうか?なぜこれが必要なのか説明できますか?

このタスクにある程度近いスクリプトをいくつか見つけましたが、すべて同じ前処理されたデータを使用しています。リンクにあるデータサンプルを使用するのではなく、このデータを自分で処理して、文章の感情を見つけることはできないでしょうか?

助けていただければ幸いです。髪を大幅に節約できます。

乾杯ケ

解決

映画のレビューデータは、すでに人間によって肯定的または否定的としてマークされています (レビューを作成した人は、極性を決定するために使用される評価を映画に与えました)。これら ゴールドスタンダード ラベルを使用すると分類器をトレーニングでき、それを他の映画レビューに使用できます。そのデータを使用して NLTK で分類器をトレーニングすることはできますが、その結果を選挙ツイートに適用することは、肯定的か否定的かをランダムに推測するよりも正確さが劣る可能性があります。あるいは、数千のツイートを自分で調べてポジティブまたはネガティブにラベル付けし、これをトレーニングセットとして使用することもできます。

NLTK によるセンチメント分析に Naive Bayes を使用する方法については、以下を参照してください。 http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/

次に、そのコードでは、映画コーパスを使用する代わりに、独自のデータを使用して単語数を計算します ( word_feats 方法）。

他のヒント

なぜあなたはWSDを使用してはいけません。五感を見つけるために、曖昧さ回避のツールを使用してください。代わりに、言葉の感覚にマップの極性を使用しています。この場合、あなたは単語インデックス極性と比較して、もう少し正確な結果を得ることができます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow