マルチカテゴリ変数のサンプリング

https://datascience.stackexchange.com/questions/8389

16-10-2019
|

質問

私の仮説 h 複数のカテゴリ変数に依存します (a,b,c) それぞれに対応する可能な値のセットがあります (A,B,C). 。これで、私のデータポイントのそれぞれが、値を制御できないこの空間に存在します（観測データ）。

たとえば、ユーザーショッピングの確率を予測する仮説は、（年齢、国、性別、逸脱タイプなどに依存していると言います。

上記のデータセットをサンプリングして、良い表現を提供するにはどうすればよいですか。本から学んだテクニックは、1つの次元に非常によく適用されますが、実際にはまれなケースです。 1つの次元でサンプリングすると、他の次元がいくつかの値に大きく歪められます。適切なサンプリングを提供する標準アルゴリズムはありますか？

解決

私はあなたにいくつかのポインターを与えましょう（私がこれについて正しいと仮定して、それは必ずしも真実ではないかもしれないので、注意して進めてください:-)。まず、該当する用語を把握します。あなたのケースはとして分類できるように思えます 多変量サンプリング から カテゴリー分布 （見るこのセクションカテゴリの分布サンプリングについて）。おそらく、それに対する最も簡単なアプローチは使用することです r エコシステムの豊富な機能。特に、標準 stats パッケージには含まれています rmultinom 働き（リンク).

より複雑なタイプのサンプリングが必要な場合は、たとえば探索する価値がある他のパッケージがあります。 sampling (リンク), miscF (リンク）、募集 rMultinom 働き（リンク）。複雑なサンプリングが調査データに焦点を合わせている場合は、読書を検討してくださいこの興味深い論文トーマス・ラムリーによる「複雑なサンプリングとR」。

R以外の言語を使用する場合は、確認してください multinomial Pythonの機能 numpy パッケージと、stataの場合、このブログ投稿. 。最後に、ベイジアン統計に興味がある場合、次の2つのドキュメントが関連しているようです。このブログ投稿とこの調査論文. 。お役に立てれば。

他のヒント

明確にするために、可能なすべてのカテゴリの組み合わせで少なくとも1つの観測がありますが、総データのサブセットで分析を実行するだけで、どのポイントを維持するか、どのポイントを捨てるかを選択しようとしていますか？

ここでの正しいアプローチは、あなたの仮説に強く依存すると思います h それ、実行したい統計テストの種類、そしてあなたの損失機能とは何かです。たとえば、各組み合わせのデータポイントの数、または各組み合わせの連続変数の平均とstdevによって回答できる質問に答えようとしている場合、サンプリングによってデータのサイズを縮小することは傷つくだけですあなたの分析。

たとえば、分類子を学習しようとしている場合、古典的な質問は、可能なすべてのクラスの数が同数のクラスでトレーニングするのか、それとも野生で見つかった基礎となるクラスの分布を訓練するかです。 1つ目は、「優れた」分類器を訓練します。特に、クラスのメンバーシップが後で最も合理的な損失関数によって、後に野生の実際の分布にリセットされる場合。しかし、あなたの損失機能はこれがより良いものの1つですか？

あなたも調べたいかもしれません実験のデザイン, 組み合わせデザイン特に、対称的な問題を解決しようとしているのは、データなしで始まりますが、さまざまな値を選択できるようになります。基礎となる機能についてできるだけ多くの情報を取得するために、どのポイントをテストする必要がありますか？

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange