テストデータの欠損値の下で予測モデルを展開する

https://datascience.stackexchange.com/questions/14628

16-10-2019
|

質問

完全でクリーンなデータセットに基づいて、ロジスティック回帰予測モデルを正常に構築しました。つまり、欠損値がなく、データは一貫しています。これで、モデルを展開してオンラインで使用するためにテストするために、入力に欠損値があります。つまり、すべての入力がターゲット値を予測できるわけではありません。

これに対処する標準的な方法はありますか？

解決

問題に対処する3つの方法を考えることができます。

「欠損値」を別の機能として扱います: ：「卒業日」などの機能があると想像してください。この価値が欠落している理由の1つは、その人が卒業しなかったことです。したがって、バイナリ機能「卒業日が利用可能」として、実際の卒業日が別の機能としてモデルを構築できます。
欠損値を予測します: ：データが不足している場合（最初のポイントとは対照的に）データが欠落している場合、欠損値を予測しようとすることを考えるかもしれません。また、正しい予測値の確実性をコードする機能を追加することもできます。
機能をスキップします: ：それが非常に頻繁に欠落している場合、そしてそれがあなたの予測にあまり価値を追加しない場合、あなたは単にそれを削除したいかもしれません。

他のヒント

欠損値に対処する統計では、多くの場合、帰属によって行われます。 https://en.wikipedia.org/wiki/imputation_(Statistics）

そして、それについての本全体が書かれています。読み始めることをお勧めします。

1つのメソッド、複数の代入は、欠損値を分布からサンプリングした一部の値に置き換えることにより、多数の新しい完全なデータ項目を作成することにより機能します。次に、これらの新しいデータ項目から予測すると、プールされた予測と分散を計算できる一連の予測と分散が得られます。この分散は、サンプリングによって導入される分散のため、完全なアイテムからそれよりも大きくなります。この増加は、欠落している変数がモデルにどれだけ影響力があるか、および欠落しているアイテムにどのような分布を与えるかに依存します。たとえば、年齢が不足しており、データが16〜60の人口からのものである必要がある場合、人口分布からの年齢を何度もサンプリングし、予測を行い、複数の代入方法論に従ってプールします。

もちろん、欠落データがランダムに欠落しているのか、それとも偏見がないかどうかを知る必要があります（おそらく40歳以上の女性が年齢を与えないかもしれません）。データについて慎重に考えている場合にのみ明らかになる興味深い合併症がたくさんあります。

とにかく、私が言うように、本全体。そして、おそらくStatistics Stack Exchangeサイトも試す必要があります。それは実際にはデータサイエンスではありません。

Missing values need to be treated, you can remove missing if are very  
small < 10% or you have large dataset. Some  statistical software like SAS will 
exclude missing values if is not imputed/treated.

また、何も予測することはできません Na: ：通常、欠落しているかコード化されたデータは意味があるか、心がないので、欠落データで何をする必要があるかを知る必要があります。

結論として：間違った予測がある場合よりもコード化されている場合、または統計ソフトウェアがデータセット/モデルから自動的にドロップされるため、欠損データを修正する必要があります。モデルビルディングのデータをどのように扱ったかを知っているよりも、このロジスティックモデルをすでに構築し、次のステップを把握していると仮定して、モデル用の帰属した欠落データを含めるか、データセット/入力パイプラインからドロップするようにデータを準備するかどうかを把握します。

実際のデータに可能な限り近いように、ロジスティック回帰モデルを再構築し、実際のデータで見つけた欠損値をシミュレートします。結局のところ、モデルは実際の状況を表すことになっています。このアプローチには、帰属アプローチよりもいくつかの利点があります。最も重要なのは、モデルがどの程度欠落しているかを正確に評価できることです。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange