非実験データから科学的結果を得る方法 (データマイニング?)

https://stackoverflow.com/questions/105996

01-07-2019
|

質問

多くの変数があり、その多くは制御できないプロセスから最大のパフォーマンスを引き出したいと考えています。
何千もの実験を実行することはできませんが、何百もの実験を実行できれば素晴らしいでしょう。
- 多くの制御可能なパラメータを変更する
- パフォーマンスを示す多くのパラメータに関するデータを収集する
- 私が制御できなかったパラメータについては、可能な限り「正確に」
- 自分がコントロールできるものについて「最適な」値を導き出し、最初からやり直す

これはデータマイニングと呼ばれるような気がします。つまり、すぐには関連性があるようには見えないが、しばらくすると相関関係が判明する大量のデータを処理することになります。

それで...この種のアルゴリズム、概念、理論についてはどこから調べればよいでしょうか?検索目的の関連用語でも役立ちます。

背景：私はウルトラマラソンサイクリングをするのが好きで、各ライドのログを記録します。もっと多くのデータを保存して、何百回もライドした後、自分のパフォーマンスに関する情報を引き出したいと考えています。

ただし、ルート、環境 (温度、気圧、騒音、太陽負荷、風、降水量など)、燃料、姿勢、重量、水負荷など、すべてが異なります。いくつかのことは制御できますが、新しい燃料体制をテストするために同じルートを 20 回も走るのは気が滅入るばかりで、やりたい実験をすべて実行するには何年もかかります。ただし、これらすべてのことやその他のことを記録することはできます (自転車 FTW でのテレメトリ)。

解決

何かをしたいようですね回帰分析. 。確かにデータはたくさんありますね！

回帰分析は、統計と科学において非常に一般的なモデリング手法です。(統計は回帰分析の技術であり科学であると主張することもできます。) 必要な計算を行うための統計パッケージが多数存在します。（私はそれをお勧めしますが、私は何年も時代遅れです。）

データマイニングが悪い評判になっているのは、人々があまりにも多くの場合、相関関係が因果関係と等しいと考えているためです。影響を与えることがわかっている変数から始めて、それらを中心に統計モデルを構築するのが良い手法であることがわかりました。つまり、風、体重、上昇が移動速度に影響を及ぼし、統計ソフトウェアがデータセットを取得して、それらの要因間の相関関係を計算できることがわかりました。これにより、統計モデルまたは線形方程式が得られます。

speed = x*weight + y*wind + z*climb + constant

新しい変数を探索するときは、R 二乗などの適合度メトリックを比較することで、モデルが改善されたかどうかを確認できます。したがって、温度や時刻がモデルに何かを加えるかどうかを確認するとよいでしょう。

データに変換を適用したい場合があります。たとえば、寒い日の方がパフォーマンスが向上することに気づくかもしれません。ただし、非常に寒い日や非常に暑い日は、パフォーマンスに悪影響を与える可能性があります。その場合、温度をビンに割り当てるか、セグメント:< 0°C;0℃～40℃。> 40°C など。重要なのは、データそのものだけでなく、現実世界で起こっていることの合理的なモデルに一致する方法でデータを変換することです。

これはプログラミングに関連したトピックではないと思われる人のために、これらと同じ手法を使用してシステムパフォーマンスを分析できることに注意してください。

他のヒント

これだけ多くの変数があると、次元が多すぎるため、次のことを確認する必要があるかもしれません。主成分分析. 。回帰分析から「技術」の一部を取り出し、データ自体が語れるようにします。その種の分析を行うためのソフトウェアがリンクの下部に表示されています。

Perlモジュールを使用しました統計::回帰過去に似たような問題があった場合。ただし、回帰分析は間違いなく芸術であることに注意してください。Perl モジュールの警告にあるように、適切な数学を学習していないと意味がわかりません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow