質問
私は風力タービンからのデータを分析しています。通常、これは私が優れた方法で行うようなものですが、データの量には重いものが必要です。私はこれまでRを使用したことがないので、いくつかのポインターを探しています。
データは WindSpeed と Power の2つの列で構成されています。これまでのところ、CSVファイルからデータをインポートし、2つを互いに分散プロットしました。
次に実行したいのは、データを範囲に並べ替えることです。たとえば、 WindSpeed がxとyの間にあるすべてのデータを検索し、各範囲で生成された電力の平均を求めて、形成された曲線をグラフ化します。
この平均から、平均の2つの標準偏差のいずれかに該当するデータに基づいて平均を再計算します(基本的に外れ値は無視します)。
どんなポインタでも大歓迎です。
興味のある方のために、
解決
@hadleyと同様の動機付けのこのバージョンを、パッケージmgcv
を使用したアダプティブスムーザーを備えた加法モデルを使用してミックスに投入します。
@hadleyで使用されるダミーデータを最初に ジェネラコディセタグプレ
gam()
を使用して加法モデルを適合させ、REMLを介した適応スムーザーと滑らかさの選択を使用します
ジェネラコディセタグプレ
モデルから予測し、標準の適合誤差を取得します。後者を使用して、約95%の信頼区間を生成します ジェネラコディセタグプレ
すべてをプロットし、Loessを比較に適合させます ジェネラコディセタグプレ
他のヒント
Excelを使用しなくなったので、データの大まかなビニングや外れ値を削除するためのアドホックな方法を必要としない最新の統計手法を使用してみませんか。レスによって実装された、局所的に滑らかな回帰です。
csgillespieのサンプルデータを少し変更して使用する: ジェネラコディセタグプレ
最初に、問題を具体的にするためのサンプルデータをいくつか作成します。 ジェネラコディセタグプレ
[0,5)、[5,10)などの間のpower
値をビニングしたいとします。次に
ジェネラコディセタグプレ
これで、対象範囲間の平均値が作成されました。中央値が必要な場合は、mean
をmedian
に変更するだけです。あとは、それらをプロットするだけです。
ジェネラコディセタグプレ
平均の2標準偏差内にあるデータに基づいて平均を取得するには、もう少し複雑な関数を作成する必要があります。 ジェネラコディセタグプレ
Hadley独自のggplot2も試してみることをお勧めします。彼のウェブサイトは素晴らしいリソースです: http://had.co.nz/ggplot2/ 。
ジェネラコディセタグプレ