Aconsejar sobre las predicciones dadas la recopilación de dimensiones y las probabilidades correspondientes

https://datascience.stackexchange.com/questions/6765

16-10-2019
|

Pregunta

Soy un graduado de CS pero soy muy nuevo en la ciencia de datos. Podría usar algunos consejos/información sobre un problema que estoy tratando de resolver. He pasado por el tutorial Titanic en gaggle.com, que creo que fue útil, pero mi problema es un poco diferente.

Estoy tratando de predecir el riesgo de diabetes en función de la edad, el sexo ... y otros factores dados estos datos: http://www.healthindicators.gov/indicators/diabetes-new-cases-per-1000_555/profile/classicdata

Los datos ofrecen nuevos casos a las personas por cada 1,000 personas para cada dimensión (edad, sexo ... etc.). Lo que me gustaría hacer es idear una forma de predecir, dada una lista de dimensiones (edad, sexo ... etc.) Un factor de probabilidad para un nuevo diagnóstico.

Hasta ahora, mi estrategia es cargar estos datos en R y usar algún paquete para crear un árbol de decisión, similar a lo que vi en el ejemplo de Titanic en Kaggle.com, luego alimentar una lista de dimensiones. Sin embargo, estoy un poco abrumado. Cualquier dirección sobre lo que debería estar estudiando, paquetes/métodos/ejemplos sería útil.

Solución

Información agregada

Dado que solo se le dan datos agregados, y no ejemplos individuales, las técnicas de aprendizaje automático como los árboles de decisión realmente no lo ayudarán mucho. Esos algoritmos ganan mucha tracción al observar las correlaciones dentro de un solo ejemplo. Por ejemplo, el aumento en el riesgo de ser obeso y mayor de 40 podría ser mucho mayor que la suma de los riesgos individuales de ser obesos o mayores de 40 años (es decir, el efecto es mayor que la suma de sus partes). Los datos agregados pierden esta información.

El enfoque bayesiano

Sin embargo, en el lado positivo, usar datos agregados como este es bastante sencillo, pero requiere alguna teoría de probabilidad. Si $ d $ es si la persona tiene diabetes y $ f_1, ldots, f_n $ son los factores de ese enlace que proporcionó, y si hago mis cálculos correctamente, podemos usar la fórmula: $$ text {prob } (D | f_1, ldots, f_n) propto frac { prod_ {k = 1}^n text {prob} (d | f_k)} { text {prob} (d)^ {n-1}} $$ (la prueba de esto es una extensión del encontrado aquí). Esto supone que los factores $ F_1, LDOTS, F_N $ son condicionalmente independientes dado $ D $, aunque eso generalmente es razonable. Para calcular las probabilidades, calcule las salidas para $ d = text {diabetes} $ y $ neg d = text {sin diabetes} $ y divídalos a ambos por su suma para que se suman a 1.

Ejemplo

Supongamos que tuvimos un hombre casado de 48 años. Mirando los datos 2010-2012, el 0.73% de todas las personas obtienen diabetes ($ text {prob} (d) = 0.73 % $), el 0.77% de las personas casadas obtienen diabetes ($ text {prob} (d | F_1) $$ = 0.77 % $), 1.02% de las personas de 45-54 años obtienen diabetes ($ text {prob} (d | f_2) = 1.02 % $) y el 0.70% de los hombres obtienen diabetes ($ text {prob} (d | f_3) = 0.70 %$). Esto nos da las probabilidades no anormalizadas: $$ begin {align*} p (d | f_1, f_2, f_3) & = frac {(0.77 %) (1.02 %) (0.70 %)}} ((((( 0.73 %)^2} & = 0.0103 p ( neg d | f_1, f_2, f_3) & = frac {(99.23 %) (98.98 %) (99.30 %)} {(99.27 %)^2} & = 0.9897 end {align*} $$ Después de normalizarlos para agregar a uno (que ya hacen en este caso), obtenemos un 1.03% de posibilidades de que esta persona reciba diabetes y un 98.97% posibilidad de que no tengan diabetes.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange