「良い」サンプルサイズとは

https://datascience.stackexchange.com/questions/10449

16-10-2019
|

質問

2 TBのデータがある場合、選択するのに最適なサンプルサイズは何ですか？私が持っているRAM/処理能力の量に制限があることを理解しているので、それについてサンプリングの決定を下すべきです。しかし、処理能力が今のところ私にとって心配ではないとしたら。私のサンプルサイズにアプローチする良い方法は何でしょうか？

解決

これは、これ以上の情報なしで答えるのが難しい質問です。これはモデルビルディング用であると仮定しますが、詳細がなければ何かを推奨するのは難しいです。

ただし、すべきことがいくつかあります 一般的 知られている：

人口規模

人口の大きさは？ 2TBのデータは総人口を構成していますか、それとも特定の時間枠のサンプルですか？あなたはどのようなデータのフレームを見ていますか？この2日間のデータは、人口の特定のサブセットの代表的なものであるか、これがすべてですか？このデータセットからどのような結論を引き出すことができるかを知るには、これを知る必要があります。

分散

サンプルの分散は何ですか？カテゴリデータの場合、一意の値はいくつありますか？これの周りにメトリックを持つことは、必要なサンプルの数を判断するのに役立ちます。これが低分散セットの場合、数百/千の観測が必要な場合があります。

層別化/グループ化

あなたのデータは意味のある方法でグループ化されていますか？もしそうなら、これをサンプルに考慮する必要があります。あなたがしていることによっては、人口の意味のある表現が必要です。データがグループ化されていないが、それに関心のある異なるグループがある場合、データを層別化または前処理する必要がある場合があります。

モデルと目標

これはすべて、あなたがやろうとしていることに帰着することになります。一意のエンティティのセットを分類または解析しようとしている場合は、データをサンプリングしようとするのではなく、データの大規模なセットをストリーミングする方が良いかもしれません。動作に基づいて画像や顧客を分類しようとしている場合は、これらのグループの違いに応じて小さなサブセットのみが必要になる場合があります。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange