Frage

Ich bin ein CS -Absolvent, bin aber sehr neu in der Data Science. Ich könnte einige Experten -Ratschläge/Einblicke in ein Problem verwenden, das ich zu lösen versuche. Ich habe das Titanic Tutorial auf gaggle.com durchgemacht, das ich für hilfreich halte, aber mein Problem ist ein bisschen anders.

Ich versuche, das Diabetes -Risiko vorherzusagen, basierend auf Alter, Geschlecht ... und anderen Faktoren, die diese Daten angegeben haben: http://www.healthindicators.gov/indicators/diabetes-new-cases-per-1000_555/profile/classicdata

Die Daten geben neuen Fällen Personen pro 1.000 Menschen für jede Dimension (Alter, Geschlecht ... usw.). Was ich gerne tun möchte, ist eine Möglichkeit, angesichts einer Liste von Dimensionen (Alter, Geschlecht ... usw.) vorherzusagen, einen Wahrscheinlichkeitsfaktor für eine neue Diagnose.

Bisher besteht meine Strategie darin, diese Daten in R zu laden und ein Paket zu verwenden, um einen Entscheidungsbaum zu erstellen, ähnlich wie ich im Titanic -Beispiel auf kaggle.com gesehen habe, und dann in eine Dimensionsliste zu füttern. Ich bin jedoch etwas überfordert. Jede Richtung, was ich studieren sollte, Pakete/Methoden/Beispiele wäre hilfreich.

War es hilfreich?

Lösung

Daten sammeln

Da Sie nur aggregierte Daten und nicht individuelle Beispiele erhalten, helfen Ihnen Techniken für maschinelles Lernen wie Entscheidungsbäume nicht wirklich viel. Diese Algorithmen gewinnen viel Traktion, indem sie Korrelationen innerhalb eines einzelnen Beispiels betrachten. Zum Beispiel könnte der Anstieg des Risikos, sowohl übergewichtig als auch über 40 zu sein, viel höher sein als die Summe der individuellen Risiken, oder über 40 zu sein (dh der Effekt ist größer als die Summe seiner Teile). Aggregate Daten verliert diese Informationen.

Der Bayes'sche Ansatz

Auf der hellen Seite ist die Verwendung von Aggregatdaten wie diese jedoch ziemlich einfach, erfordert jedoch eine Wahrscheinlichkeitstheorie. Wenn $ d $ ist, ob die Person Diabetes und $ f_1, ldots hat, sind F_N $ die Faktoren aus diesem Link, den Sie bereitgestellt haben, und wenn ich meine Mathematik richtig mache, können wir die Formel verwenden: $$ text {Prob } (D | f_1, ldots, f_n) drant frac { prod_ {k = 1}^n text {prob} (d | f_k)} { text {prob} (d)^ {n-1}} $$ (der Beweis dafür ist eine Erweiterung der gefundenen hier). Dies setzt voraus, dass die Faktoren $ f_1, ldots, f_n $ bedingt unabhängig sind, wenn $ d $ sind, obwohl dies normalerweise vernünftig ist. Um die Wahrscheinlichkeiten zu berechnen, berechnen Sie die Ausgänge für $ d = text {Diabetes} $ und $ neg d = text {no Diabetes} $ und teilen Sie sie beide durch ihre Summe, damit sie 1 hinzufügen.

Beispiel

Angenommen, wir hatten einen verheirateten, 48-jährigen Mann. In den Daten 2010-2012 erhalten 0,73% aller Personen Diabetes ($ text {prob} (d) = 0,73 % $), 0,77% der verheirateten Personen erhalten Diabetes ($ text {prob} (d | F_1) $$ = 0,77 % $), 1,02% der Personen 45-54 erhalten Diabetes ($ text {prob} (d | f_2) = 1,02 % $) und 0,70% der Männer erhalten Diabetes ($ text {prob} (d | f_3) = 0,70 %$). Dies gibt uns die unbelebten Wahrscheinlichkeiten: $$ begin {align*} p (d | f_1, f_2, f_3) & = frac {(0,77 %) (1,02 %) (0,70 %)} {((((( 0,73 %)^2} & = 0,0103 p ( neg d | f_1, f_2, f_3) & = frac {(99,23 %) (98,98 %) (99,30 %)} {(99,27) %)^2} & = 0,9897 end {Align*} $$ Nach der Normalisierung dieser zu einem (was sie in diesem Fall bereits tun) haben wir eine 1,03% -Chance, dass diese Person Diabetes und 98,97% erhält, und eine 98,97% Chance, dass sie keinen Diabetes bekommen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top