欠落データを平均値以外で埋めます

https://datascience.stackexchange.com/questions/8322

16-10-2019
|

質問

欠落データを入力するために利用可能なすべてのオプションは何ですか？

明らかな選択の1つは平均ですが、欠落データの割合が大きい場合、精度が低下します。

では、それらがそれらの多くである場合、欠損値にどのように対処するのでしょうか？

解決

もちろん、欠落データのために記入する他の選択肢があります。中央値はすでに言及されており、特定の場合にはうまく機能する可能性があります。

より良い選択肢もあるかもしれません。これはあなたの問題に非常に固有のかもしれません。これが事実であるかどうかを調べるには、自然欠落したデータの。データが欠落している理由を詳細に理解すると、適切なソリューションを考え出す確率がはるかに高くなります。

あなたが持っているかどうかを調べることにより、欠落データの調査を開始したいと思うかもしれません 有益な また 非情報 ミス。最初のカテゴリは、ランダムデータ損失によって生成されます。この場合、欠損値を持つ観測値は、完全なデータを持つものと変わりません。はどうかと言うと 有益な データがありませんが、これはあなたの観察について何かを教えてくれます。簡単な例は、この顧客の契約がこれまでキャンセルされていないことを意味します。通常、有益なミスを平均または中央値で記入したくありませんが、それらから個別の機能を生成することをお勧めします。

また、さまざまなメカニズムによって生成されているいくつかの種類の欠落データがあることもわかります。この場合、異なる方法でデフォルト値を作成することをお勧めします。

他のヒント

データの欠落に関しては、これらの値を埋める多くの異なる方法があります。ただし、選択した代入法は、欠落データの量と変数の種類に大きく依存します。たとえば、カテゴリデータが欠落している場合の平均値は異なりません。代わりにモードを選択します。どの方法を選択しても、それに関連するいくつかのバイアスがあります。欠損値の帰属に関連するバイアスを減らすのに良い仕事をする1つの方法は、複数の代入です。それは非常に長いアプローチかもしれませんが、それは私がこれまでに見た中で最も健全なアプローチであり、大量の欠損値を帰属させます。複数の代入のためのRライブラリがあるかもしれないと思います。

もちろん、別の選択肢は、たとえば変数Xに50％の欠落データがある場合、なぜこれがなぜあるのかについて良い説明があるかもしれないということです。変数に関連付けられた情報をインポントまたは失うことを試みるのではなく、variable_x_flag_missingと呼ばれる新しい変数を作成すると便利な場合があります。これは、変数xが欠損値を含み、そうでない場合は0としてコーディングされている場合、観測が1としてコーディングされるバイナリインジケーター変数です。

値がランダムに欠落している場合とあなたのデータマトリックスは低いランクであると確信しています、あなたは核基準基礎追跡方法を使用することができます（マトリックスの完了）。方法（とりわけ）が実装されます tfocs.

多くの現実世界のアプリケーションでは、データマトリックスにはめったにフルランクがないため、低ランクマトリックスの仮定は受け入れられる可能性があります。一方、値は本当にランダムに欠けていないかもしれません。

別のアプローチは、特異スペクトル分析を使用することです（SSA）、Caterpillarアルゴリズムとしても知られています。欠損値を持つタイムシリーズデータに使用できます。このアルゴリズムはあまりよく知られていませんが、文献では「時系列データのPCA」と呼ばれることもあります。

欠損値を持つデータとスパースデータには違いがあります。データ収集中の入力、損失、またはエラーが無効であるか、データのクリーニングまたは処理時に作成されるため、欠損値は一般にあります。

これらの値の数が非常に少ない場合、対応するインスタンスを無視するか、データの約5〜10％の場合、さまざまな方法を使用して埋めることができます（最後の観察を進め、平均/中央値で埋め、データを補間するなど）。 Pythonで作業している場合は、Pandasのドキュメントを実行してください 欠損値を使用します, 、これらのオプションについて詳しく学ぶために（Pythonで働いていなくても、これはよく読まれます）。

ただし、データセットに多数の欠損値（〜> 30％など）がある場合、データは スパース. 。このようなデータセットは、モデリングにさまざまなバイアスを作成し、それらに対処する特別な方法がありますが、私はそれらについてはあまりしません。

欠落プロセスがMAR（ランダムに欠落している）と想定できる場合、複数の代入を強くお勧めします。

欠落データに対する複数の代入のアイデアは、1977年にRubinによって提案されました。

アイデアは魅力的です。なぜなら、代入と分析の手順を分離できるからです。

欠落データの複数の代入の最初のステップは、適切なモデルである手の変数のタイプに依存する代入モデルを使用して、欠損値を乗算することです。
2番目のステップは、帰属データセットを個別に分析することです。
3番目のステップは、各帰属データセットの分析モデルの推定値を組み合わせることです。

これにより、堅牢な推定値が可能になります。

私はそれをrで実行することができますマウスパッケージ.

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange