Советуйте делать прогнозы, учитывая сборы измерений и соответствующие вероятности

https://datascience.stackexchange.com/questions/6765

16-10-2019
|

Вопрос

Я выпускник CS, но я очень новичок в науке о данных. Я мог бы использовать какой -то экспертный консультант/понимание проблемы, которую я пытаюсь решить. Я прошел через Titanic Lutorial на Gaggle.com, который, я думаю, была полезна, но моя проблема немного другая.

Я пытаюсь предсказать риск диабета на основе возраста, пола ... и других факторов, учитывая эти данные: http://www.healthindicators.gov/indicators/diabetes-new-cases-per-1000_555/profile/classicdata

Данные дают новые случаи людей на 1000 человек для каждого измерения (возраст, пол ... и т. Д.). Что я хотел бы сделать, так это разработать способ предсказать, учитывая список измерений (возраст, пол ... и т. Д.) Коэффициент вероятности для нового диагноза.

До сих пор моя стратегия состоит в том, чтобы загрузить эти данные в R и использовать какой -то пакет для создания дерева решений, аналогично тому, что я видел в примере Titanic на kaggle.com, а затем подайте в список измерений. Тем не менее, я немного ошеломлен. Любое направление на то, что я должен изучать, было бы полезно, пакеты/методы/примеры.

Решение

Совокупные данные

Поскольку вам дают только совокупные данные, а не отдельные примеры, методы машинного обучения, такие как деревья решений, не очень помогут вам. Эти алгоритмы получают большую тягу, рассматривая корреляции в одном примере. Например, увеличение риска от ожирения и более 40 может быть намного выше, чем сумма индивидуальных рисков ожирения или более 40 (то есть эффект больше, чем сумма его частей). Совокупные данные теряют эту информацию.

Байесовский подход

С другой стороны, однако, использование агрегатных данных, подобных этому, является довольно простым, но требует некоторой теории вероятности. Если $ d $ так же, есть ли у человека диабет и $ f_1, ldots, f_n $ - это факторы из той ссылки, которую вы предоставили, и если я правильно занимаюсь математикой, мы можем использовать формулу: $$ text {Проверка } (D | f_1, ldots, f_n) propto frac { prod_ {k = 1}^n text {prob} (d | f_k)} { text {prob} (d)^ {n-1}} $$ (доказательство для этого является расширением того, что найдено здесь) Это предполагает, что факторы $ f_1, ldots, f_n $, условно независимы, учитывая $ d $, хотя это обычно разумно. Чтобы рассчитать вероятности, вычислите выходы для $ d = text {диабет} $ и $ neg d = text {no diabetes} $ и разделите их на их сумму, чтобы они добавляли в 1.

Пример

Предположим, у нас был женатый 48-летний мужчина. Глядя на данные 2010-2012 годов, 0,73% всех людей получают диабет ($ text {prob} (d) = 0,73 % $), 0,77% замужних людей получают диабет ($ text {prob} (d | F_1) $$ = 0,77 % $), 1,02% людей в возрасте 45-54 гг. ($ text {prob} (d | f_3) = 0,70 %$). Это дает нам негластные вероятности: $$ begin {Align*} P (D | F_1, F_2, F_3) & = frac {(0,77 %) (1,02 %) (0,70 %)} {((0,77 %) (1,02 %) (0,70 %)} 0,73 %)^2} & = 0,0103 p ( neg d | f_1, f_2, f_3) & = frac {(99,23 %) (98,98 %) (99,30 %)} {(99,27 %)^2} & = 0,9897 end {Align*} $$ после нормализации их, чтобы добавить к одному (что они уже делают в этом случае), мы получаем 1,03% вероятность того, что этот человек получает диабет, и 98,97% шанс для них не получить диабет.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange