方法を見ることが最もクリーンな"データのサブセットするサブセットのときには欠かすことのできない変動

https://stackoverflow.com/questions/718866

23-08-2019
|

質問

私は現している既存のものを探し出し傾向に複数のデータセットの動向を見る最適なソリューションを行った場合、その手続きがないことがあまりにも違いすぎて他のモデルであり時間がかかる).

が3考えられるシナリオ:

すべてのデータ すべてのデータをfits単一方向に変動性の低
すべてのbadデータ すべてのものでもデータの展示を大きな変動は、全体のデータを変更することができます。■
部分的なデータ 一部のデータは良いが、残りのニーズにおたずねください。

場合、当期純率データの極端な変動が高すぎその全体的な変更することができます。■これが基本的にこのデータの種類や割合の悪いデータ変動:

0%悪=の場合1
100%悪=2の場合

私は限り連続する区間の低variablity;すなわちいがある場合にも、個別にポイント拭き漆（ふきうるし）は、顔の動向

僕が求めているのは、スマートな節部のデータセットを検索指定された傾向にあります。としての生じる可能性が高いので使わないかなる部分最適の全体傾向にあります。を解決するために必要となる，と"クリーナー"データと若干異なる移特性の全体あるいは異常値).こうしたいこ部分のデータがベストプラクティスを反映し、実際の傾向にあります。

私が堪能なC++でも、かなり思いのコードはオープンソースおよびクロスプラットフォームいわISO C++です。こno.純ん。純えればと思いきったとしてISO C++.また知識のJAVA、一部組立てやfortran.

のデータセット自体は巨大なものが約150万人のう力がない方がよい。

かまいません。

私は理解していっても、空気というの解明:

各データセットできる、ということになろうし、異なる変動すなわちんなで同じ傾向の全てのデータセット
のプログラムユーザーになるとは限りませたい
のプログラムのユーザー定義するどのように連続したのサブセットが必要で、その検討のための具
場合には、プログラムは拡張するための任意の型fitな線)、ユーザ定義モデルをすることができないこと、これはい場合は、上記のクエリを解決していくこと拡大する比較的明
の外れ値についての結果としての性質を実験、データ取得技術をデータから"悪い"セクションをしなければならな収集したもののこれらの地域における外れ値.の廃棄のその異常値を意味するものではありませんのデータのイベントに踊らされているあらゆる動向統計"免責事項笑).

解決

私はあなたが右理解していれば、

RANSACアルゴリズムは、あなたが探しているものへの1つのアプローチです。 http://en.wikipedia.org/wiki/RANSACする

他のヒント

あなたの検索で用語「外れ値」を使用する場合があります。外れ値は、実験設計に取り込まれていない特別な条件、または統計吸虫（余りに起こることを期待するには小さすぎるデータセットにおける分布のexstreamsから取得ポイント）のいずれかを表すデータの特定のポイントです。

外れ値の除去は、あなたの期待によって、結果にバイアスをかけるいくつかのリスクを運ぶます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow