DBで節約するための100万文 - 関連しない英語の言葉を削除する

https://stackoverflow.com/questions/4259044

27-09-2019
|

質問

私は、感情から抽出されたポジティブ/ネガティブな単語で素朴なベイズ分類器を訓練しようとしています。例：

私はこの映画が大好きです:)）

雨が降ったときは嫌いです:(

アイデアは、使用された象徴に基づいて正または否定的な文を抽出することですが、分類器を訓練してデータベースに持続するためです。

問題は、私がそのような文章を100万件以上持っていることです。したがって、単語ごとにそれを訓練すると、データベースは投げに行きます。関連しない単語の例「i」、「this」、「when '、' '」を削除したいので、データベースクエリを作成する必要がある回数が少なくなります。

この問題を解決するのを手伝ってください。

ありがとうございました

解決

あなたはこれをチェックしたいかもしれませんhttp://books.google.com/books?id=ce1qzecovf4c&lpg=pa390&ots = ohuywlrhag&dq = sentiment%20%20mining%20for20500＆pg = pa379#v = nepage＆q = sententiment%20mining%205000022050000000000000000偽

他のヒント

2つの一般的なアプローチがあります。

コンパイルa リストを停止します.
POSタグ文章とあなたが面白くないと思うスピーチの部分を捨ててください。

どちらの場合も、どの単語/POタグが関連するかを決定することは、 PMI.

気をつけてください：情報検索からの標準停止リストは、感情分析では機能する場合と機能しない場合があります。私は最近、それが主張された場所で論文を読みました（参照なし、申し訳ありません）！そして、一般的に検索エンジンで除去されるのは、感情分析の貴重な手がかりです。（ 'i'、特に、中立カテゴリも持っている場合。）

編集: ：トレーニングセットで一度だけ発生するすべてのものを安全に捨てることもできます（いわゆる呼び出し Hapax Legomena）。かつて発生する単語は、分類器の情報値がほとんどありませんが、多くのスペースを占有する可能性があります。

データベースから取得したデータの量を減らすために、データベースに辞書を作成することができます - 単語*に**にマッピングするテーブル - トレーニング用の数字のベクトルのみを取得し、センチメントをマニュアルマークするための完全な文のみを取得することができます。

|*科学的な出版物は私の頭に浮かぶことはありませんが、多分それだけでは十分です茎または補題言葉の代わりに。辞書のサイズを縮小します。

| **この操作がデータベースを殺す場合、テキストインデックスエンジン（Apache Luceneなど）を使用するローカルアプリケーションで辞書を作成し、データベースに結果のみを保存できます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow