Вопрос

Моя гипотеза h зависит от нескольких категориальных переменных (a,b,c) каждый с соответствующим набором возможных значений (A,B,C). Анкет Теперь каждая из моих точек данных существует в этом пространстве, где я не контролирую значения (данные наблюдений).

Для того, чтобы гипотеза, чтобы предсказать вероятность покупки пользователей, скажем, от (возраст, страна, пол, Devicetype и т. Д.)

Как я мог попробовать приведенный выше набор данных, чтобы он дал мне хорошее представление. Методы, которые я узнал из книг, очень хорошо применяются к одному измерению, но это редкий случай на практике. Если я выберу в одном измерении, мои другие измерения будут сильно искажены по отношению к некоторым значениям. Есть ли какой -нибудь стандартный алгоритм, чтобы дать хороший отбор проб?

Это было полезно?

Решение

Позвольте мне дать вам несколько указателей (предполагая, что я прав, что не обязательно может быть правдой, поэтому продолжайте с осторожностью :-). Во -первых, я выяснил применимую терминологию. Мне кажется, что ваш случай может быть классифицирован как Многомерная выборка из Категорическое распределение (видеть эта секция по категориальной выборке распределения). Возможно, самый простой подход к этому - использовать р богатая функциональность экосистемы. В частности, стандарт stats Пакет содержит rmultinom функция (ссылка на сайт).

Если вам нужны более сложные типы отбора проб, есть и другие пакеты, которые можно было бы изучить, например, sampling (ссылка на сайт), miscF (ссылка на сайт), предложение rMultinom функция (ссылка на сайт) Если ваша сложная выборка сосредоточена на данных опроса, рассмотрите возможность чтения Эта интересная бумага «Сложная выборка и R» Томаса Ламли.

Если вы используете языки, отличные от R, проверьте multinomial функционировать из Python numpy пакет и, для Stata, этот пост в блоге. Анкет Наконец, если вы заинтересованы в байесовской статистике, следующие два документа представляются актуальными: этот пост в блоге а также Эта документация. Анкет Надеюсь это поможет.

Другие советы

Чтобы уточнить, у вас есть по крайней мере одно наблюдение в каждой возможной комбинации категорий, но вы хотите выполнить анализ только на подмножестве общих данных и пытаетесь решить, как выбрать, какие точки сохранить и какие точки выбросить?

Я думаю, что правильный подход здесь будет сильно зависеть от того, что ваша гипотеза h Это то, какие статистические тесты вы хотите запустить и какова ваша функция потери. Если вы пытаетесь ответить на вопрос, на который можно ответить по количеству данных в каждой комбинации, например, или средним и Stdev некоторой непрерывной переменной для каждой комбинации, уменьшение размера ваших данных путем отбора проб будет только повредить Ваш анализ.

Например, если вы пытаетесь выучить классификатор, классический вопрос заключается в том, следует ли тренироваться на съемочной площадке с одинаковым числом всех возможных классов или с базовым распределением классов, найденным в дикой природе. Первый будет обучать «превосходному» классификатору, особенно если его предыдущее членство в классе впоследствии сбрасывается в фактическое распределение в дикой природе по большинству разумных функций потери. Но является ли ваша потери функция одной из тех, где это лучше?

Вы также можете занять Дизайн экспериментов, комбинаторный дизайн В частности, что пытается решить симметричную проблему-запуск без данных, кроме как возможность выбрать различные значения, какой набор точек мы должны проверить, чтобы получить как можно больше информации о базовых функциях?

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top