質問

私はCSの卒業生ですが、データサイエンスは非常に初めてです。私が解決しようとしている問題について、専門家のアドバイス/洞察を使用することができます。私はGaggle.comのタイタニックチュートリアルを行ってきましたが、私は役に立ったと思いますが、私の問題は少し違っています。

私は、年齢、性別、およびこのデータを与えられた他の要因に基づいて糖尿病のリスクを予測しようとしています。 http://www.healthindicators.gov/indicators/diabetes-new-cases-per-1000_555/profile/classicdata

このデータは、各次元(年齢、性別など)に対して1,000人あたりの人々に新しいケースを提供します。私がやりたいことは、新しい診断の確率係数を寸法(年齢、性別...など)のリストを考えると、予測する方法を考案することです。

これまでのところ、私の戦略は、このデータをRにロードし、Kaggle.comのTitanicの例で見たものと同様に、いくつかのパッケージを使用して決定ツリーを作成し、次にディメンションリストにフィードすることです。しかし、私は少し圧倒されています。私が勉強すべきことの方向性、パッケージ/方法/例が役立ちます。

役に立ちましたか?

解決

集約データ

個々の例ではなく、集計データのみが与えられているため、意思決定ツリーのような機械学習技術はあまり役に立ちません。これらのアルゴリズムは、単一の例内で相関関係を調べることにより、多くの牽引力を獲得します。たとえば、肥満と40を超える両方のリスクの増加は、肥満または40以上の個々のリスクの合計よりもはるかに高い(つまり、その効果はその部分の合計よりも大きい)。集計データはこの情報を失います。

ベイジアンアプローチ

ただし、明るい面では、このような集計データを使用することはかなり簡単ですが、確率理論が必要です。 $ d $が糖尿病と$ f_1、 ldots、f_n $があなたが提供したリンクからの要因である場合、数学を正しく行っている場合、式:$$ text {probを使用できます}(d | f_1、 ldots、f_n) propto frac { prod_ {k = 1}^n text {prob}(d | f_k)} { text {prob}(d)^ {n-1}} $$(これの証明は見つかったものの拡張です ここ)。これは、$ f_1、 ldots、f_n $の要因が$ d $を与えられた条件付きで独立していることを前提としていますが、それは通常合理的です。確率を計算するには、$ d = text {diabetes} $ and $ neg d = text {no Diabetes} $の出力を計算し、それらを両方で分割して1に追加します。

結婚した48歳の男性がいたとします。 2010-2012のデータを見ると、すべての人の0.73%が糖尿病($ text {prob}(d)= 0.73 %$)を受け取ります。 f_1)$$ = 0.77 %$)、45〜54歳の人の1.02%($ Text {prob}(d | f_2)= 1.02 %$)、および男性の0.70%が糖尿病になります($ text {prob}(d | f_3)= 0.70 %$)。これにより、非正規化された確率が得られます:$$ begin {align*} p(d | f_1、f_2、f_3)&= frac {(0.77 %)(1.02 %)(0.70 %)} {(( 0.73 %)^2}&= 0.0103 p( neg d | f_1、f_2、f_3)&= frac {(99.23 %)(98.98 %)(99.30 %)} {(99.27 %)^2}&= 0.9897 end {align*} $$これらを正規化して1つに追加すると(この場合はすでに行っています)、この人が糖尿病になる可能性が1.03%、98.97%彼らが糖尿病を患っていないチャンス。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top