トレーニングセット - 肯定文、否定文、中立文の割合

https://stackoverflow.com/questions/2058790

20-09-2019
|

質問

私は Twitter メッセージにポジティブ、ネガティブ、ニュートラルのタグを手動で付けています。トレーニングセットを特定するために使用できるロジックはあるのか、メッセージのどの割合がポジティブ/ネガティブ、ニュートラルであるべきかを理解しようとしています。

たとえば、1000 個の Twitter メッセージを使用して単純ベイズ分類器をトレーニングしている場合、 pos の比率は次のようになります。否定:中立は 33 % です:33% :33% または 25% にする必要があります:25% :50%

論理的に私の頭の中では、私はトレーニングしているように思えます（つまり、中立的な場合はより多くのサンプルを与える）システムは、肯定的な文か否定的な文よりも中立的な文を識別する方が優れているということですが、それは本当ですか？それともここでいくつかの理論が欠けていますか？

ラーフルに感謝します

解決

あなたが言及している問題は、不均衡問題として知られています。多くの機械学習アルゴリズムは、不均衡なトレーニングデータに直面するとパフォーマンスが低下します。あるクラスのインスタンスの数が他のクラスのインスタンスの数を大幅に上回っている場合。読むこの記事問題の概要とそれに対処する方法を理解します。ナイーブベイやデシジョンツリーのような手法では、何らかの方法でデータのバランスを取ることが常に良い考えです。ランダムなオーバーサンプリングによるものです (参考文献で説明されています)。私は、トレーニングセットを現実世界の比率に一致させるという mjv の提案に同意しません。場合によってはこれが適切かもしれませんが、あなたの設定にはそれがないと確信しています。あなたが説明したような分類問題の場合、クラスセットのサイズが異なるほど、ほとんどの ML アルゴリズムでクラスを適切に識別する際に問題が発生します。ただし、実際にどのクラスが最大であるかに関する情報は、特定のインスタンスに対する分類子の信頼性が低い場合、またはこのインスタンスをまったく分類できなかった場合にフォールバックとして取得することで、いつでも使用できます。最大クラス。

さらにもう一つコメント:Twitter メッセージのポジティブさ/ネガティブさ/中立性を見つけるのは、程度の問題のように私には思えます。したがって、これは分類問題ではなく回帰としてみなされる可能性があります。3 つのクラススキームの代わりに、次のことを示すスコアを計算したいかもしれません。 どうやって メッセージはポジティブ/ネガティブです。

他のヒント

他にもたくさんの要因があります...しかし、(トレーニングデータの適切な比率と量を決定する上で) 重要なのは、現実世界における各メッセージカテゴリ (ポジティブ、ニュートラル、ネガティブ) の予想される分布です。効果的には、 トレーニングセットの適切なベースライン （およびコントロールセット）は

[定性的に]「集団」全体をできるだけ代表するもの
[定量的に]そのようなセットから行われた測定値が統計的に有意であるのに十分な大きさ。

トレーニングセット内の特定カテゴリのメッセージの [相対的な] 多さの影響を判断するのは困難です。いずれにせよ、それはより小さな要因、またはむしろ他の要因に非常に敏感な要因です。全体として、または特定のカテゴリに関する分類器の精度の向上は、通常、分類器の特定の実装 (例:ベイジアンなのか、トークンとは何なのか、ノイズトークンは除去されているのか、近接性は要因なのか、バイグラムを使用しているのかなど...) 純粋に行うよりも 定量的 トレーニングセットの特徴。

上記は一般に事実ですが、トレーニングセットのサイズと構成の選択にある程度役立ちますが、次のようなものがあります。 決定方法、事後, 適切なサイズと構成のトレーニングデータが提供されている場合。
これを達成する 1 つの方法は、コントロールセットを導入することです。1 つは手動でラベル付けされていますが、トレーニングセットの一部ではなく、トレーニングセットのさまざまなサブセットを使用してさまざまなテスト実行を測定するため、各カテゴリで得られた再現率と精度 (またはいくつかの同様の精度測定)、これについてはコントロールの分類です。セット。これらの測定値が統計的に代表的な値を超えて改善または低下しない場合、トレーニング [サブ] セットのサイズと構成はおそらく正しいものです (オーバーフィッティングセットでない限り:-(、しかし、それはまったく別の問題です)。 ..）

このアプローチは、効果的に必要なトレーニングサブセットの 3 倍から 5 倍のサイズのトレーニングセットを使用することを意味し、さまざまなテスト用に多くの異なるサブセットをランダムに (各カテゴリ内で) 構築できるようになります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow