Donner des conseils sur faire des prédictions collection donnée de dimensions et de probabilités correspondantes

https://datascience.stackexchange.com/questions/6765

16-10-2019
|

Question

Je suis diplômé CS, mais je suis très nouveau pour la science des données. Je pourrais utiliser quelques conseils / aperçu d'experts sur un problème que je suis en train de résoudre. Je suis passé par le tutoriel titanesque sur gaggle.com que je pense utile, mais mon problème est un autre bit.

Je suis en train de prédire le risque de diabète fondée sur l'âge, le sexe ... et d'autres facteurs étant donné ces données: http://www.healthindicators.gov/Indicators/Diabetes-new-cases-per-1000_555/Profile/ClassicData

Les données donne de nouveaux cas de personnes par 1.000 personnes pour chaque dimension (âge, sexe, etc ...). Ce que je voudrais faire est de trouver un moyen de prédire, étant donné une liste de dimensions (âge, sexe, etc ...) un facteur de probabilité pour un nouveau diagnostic.

Jusqu'à présent, ma stratégie est de charger ces données dans R et utiliser un package pour créer un arbre de décision, semblable à ce que dans une liste de dimension que j'ai vu dans l'exemple titanesque sur kaggle.com, puis nourrir. Cependant, je suis un peu débordé. Toute direction sur ce que je devrais être en train d'étudier, paquets / méthodes / examples serait utile.

La solution

Données agrégées

Puisque vous êtes seulement donné des données agrégées, et non pas des exemples individuels, les techniques d'apprentissage machine comme des arbres de décision ne sera pas vraiment vous aider beaucoup. Ces algorithmes gagnent beaucoup de traction en regardant des corrélations dans un seul exemple. Par exemple, l'augmentation du risque d'être à la fois obèses et plus de 40 pourrait être beaucoup plus élevé que la somme des risques individuels d'être obèses ou plus de 40 (à savoir l'effet est supérieure à la somme de ses parties). Les données agrégées perd ces informations.

L'approche bayésienne

Du côté lumineux, bien que, en utilisant des données agrégées comme celui-ci est assez simple, mais nécessite une certaine théorie des probabilités. Si $ D $ est de savoir si la personne a le diabète et $, F-1 \ ldots, F_n $ sont les facteurs de ce lien que vous avez fourni, et si je fais mes calculs correctement, nous pouvons utiliser la formule: $$ \ texte {} Prob (D \ | \ F-1, \ ldots, F_n) \ propto \ frac {\ prod_ {k = 1} ^ n \ texte {} Prob (D \ | \ F_k)} {\ texte { prob} (D) ^ {n-1}} $$ (La preuve en est une extension de celui trouvé ). Cela suppose que les facteurs $ F-1, \ ldots, F_n $ sont donné conditionnellement indépendants $ D $, bien que ce soit généralement raisonnable. Pour calculer les probabilités, le calcul des sorties pour $ D = \ text {} $ diabète et $ \ neg = D \ texte {} Pas de diabète $ et les diviser à la fois par leur somme afin qu'ils ajoutent à 1.

Exemple

Supposons que nous ayons un couple marié, 48 ans, de sexe masculin. En regardant les données 2010-2012, 0,73% de toutes les personnes obtenir le diabète ($ \ texte {} Prob (D) = 0,73 \% $), 0,77% des personnes mariées obtenir le diabète (texte $ \ {} Prob (D \ | \ F-1) $$ = 0,77 \% $), 1,02% des personnes âgées de 45-54 diabète get ($ \ texte {} Prob (D \ | \ F_2) = 1,02 \% $), et 0,70% des hommes obtiennent le diabète (texte $ \ {} Prob (D \ | \ F_3) = 0,70 \% $). Cela nous donne les probabilités non normalisées: $$ \ begin {align *} P (D \ | \ F-1, F_2, F_3) & = \ frac {(0,77 \%) (1,02 \%) (0,70 \%)} {(0,73 \%) ^ 2} & = 0,0103 \\ P (\ neg D \ | \ F-1, F_2, F_3) & = \ frac {(99,23 \%) (98,98 \%) (99,30 \%)} {(99,27 \%) ^ 2} & = 0,9897 \ end { align *} $$ Après normalisant ces ajouter à un (ce qu'ils font déjà dans ce cas), nous obtenons une chance 1,03% de cette personne qui reçoit le diabète, et une chance 98,97% pour eux de ne pas souffrir du diabète.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange