Вопрос

Допустим, если у меня есть 2 ТБ данных, какой размер выборки лучше всего выбрать? Я понимаю, что существует ограничение на то, сколько у меня есть баран/обработка мощности, и, следовательно, я должен принять решение о том, как это выборочное решение. Но допустим, если обработка не представляет мне сейчас беспокойство. Что бы хорошо подходил к размеру моего выборки?

Это было полезно?

Решение

Это сложный вопрос, чтобы ответить без дополнительной информации. Я собираюсь предположить, что это для построения модели, но без более подробной информации это трудно что -то рекомендовать.

Однако есть некоторые вещи, которые должны в общем быть известным:

Численность населения

Насколько велика население? Составляют ли ваши 2 ТБ данных общую численность населения, или это выборка данного срока? На какую структуру данных вы смотрите - это 2 -дневные данные, которые являются представительными только для данного подмножества населения, или это все? Вам нужно знать это, чтобы узнать, какие выводы вы можете сделать из этого набора данных.

Дисперсия

Какова дисперсия выборки? Если это категориальные данные, сколько уникальных значений? Наличие метрики вокруг этого поможет определить количество образцов, которые вам понадобятся. Если это набор низкой дисперсии, вам может потребоваться всего несколько сотен/тысячи наблюдений.

Стратификация/группировка

Ваши данные сгруппированы значимым образом? Если это так, вам нужно будет включить это в ваш выборку. В зависимости от того, что вы делаете, вам понадобится значимое представление населения. Если данные не сгруппированы, но в нем есть отдельные группы, которые вы заботитесь, вам может потребоваться стратификация или предварительная обработка ваших данных.

Модель и цели

Все это заканчивается тем, что вы пытаетесь сделать. Если вы пытаетесь классифицировать или разобрать набор уникальных сущностей, вам может быть лучше, вы можете получить большой набор ваших данных, а не пытаться их попробовать. Если вы пытаетесь классифицировать изображения или клиентов на основе поведения, вам может потребоваться только небольшое подмножество в зависимости от того, как эти группы различаются.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top