一般的なデータセットは、特定の感情分析に適していますか
-
22-10-2019 - |
質問
私は使用しました スタンフォード映画レビューデータセット 感情分析の実験を作成するため。
ナイーブベイズ分類アルゴリズムを使用して、Sparkの上に基本的なアプリケーションを作成することができました。
火花からの前処理のためにしたステップ MLパイプライン
- トークン化
- Bigrams
上記の提供されたデータセットには、トレーニングセットとは別のテストデータセットもあります。トレーニング後、私は約97%の精度を得ましたが、これは素朴なベイズにとってかなり良いと思います。
このMLモデルを使用して、電子メール/チャットなどの他のテキストを予測できます。私の推測では、このデータセットには「私はドントドント」のようなビジネスコンテキストに関係なく、良い予測や特定の英語の単語を実行するのに十分な単語のコレクションがあります。このように、「これはよく見えません」は、映画/電子メール/チャットなどの異なるドメインで同じです。
私は顧客が所属するために必要なデータが顧客のものであり、プライバシーの制限のためにデータにアクセスできないため、実験を行っていません。
どんなヘルプ/ガイダンスが大歓迎です。
解決
場合によります。
基本的に、サンプル(トレーニングデータ)が母集団(すべての書面による単語)を代表するかどうかを尋ねます。
- 映画のレビューで感情分析をしていますか?うまくいきます。
- テレビのレビューで感情分析をしていますか?おそらくうまく機能するでしょう。
- 本のレビューで感情分析をしていますか?私はそれが機能する50-50オッズをより良くするでしょう。
- Twitterの投稿で感情分析を行っていますか?今、私たちは不安定になっています。人々は、書くことがはるかに少なく、より少ない形式的言語を使用し、映画レビューモデルが見たことのないより多くの絵文字を使用する傾向があります。
そうは言っても、間違いなく「一般的な」感情分析サービスがあります ここ. 。ジェネリックのデータセットと考えるものについて、アルゴリズムに対してモデルを試してみてください(例: ツイート)そして、それがどのように行われるかを見てください。
所属していません datascience.stackexchange