Wie man wissenschaftliche Ergebnisse aus nicht-experimentellen Daten erhalten (Datamining?)

StackOverflow https://stackoverflow.com/questions/105996

  •  01-07-2019
  •  | 
  •  

Frage

  • Ich möchte aus einem Prozess mit vielen Variablen maximale Leistung erhalten, von denen viele nicht kontrolliert werden kann.
  • Ich kann nicht Tausende von Experimenten ausgeführt, so wäre es schön, wenn ich Hunderte von Experimenten ausgeführt werden kann und
    • variieren viele steuerbaren Parameter
    • sammeln Daten über viele Parameter, die Leistung
    • ‚richtig‘, so viel wie möglich, für diese Parameter kann ich nicht kontrollieren
    • herauszukitzeln die ‚besten‘ Werte für diese Dinge, die ich kontrollieren kann, und wieder von vorn beginnen

Es fühlt sich an wie diese würde genannt Data Mining, wo Sie durch Tonnen von Daten gehen, die beziehen sich nicht sofort erscheinen, aber zeigt Korrelation nach einiger Anstrengung.

So ... Wo finde ich beginnen, auf Algorithmen, Konzepte, Theorie dieser Art der Sache? Auch verwandte Begriffe zum Zweck der Suche wären sinnvoll.

Hintergrund: Ich mag ultra-Marathon Radfahren zu tun, und halten Protokolle jeder Fahrt. Ich möchte mehr Daten halten, und nach Hunderten von Fahrten der Lage sein, Informationen über ziehen, wie ich durchführen.

Doch alles ändert - Routen, Umwelt, Kraftstoff, Haltung, Gewicht, Wasserlast, etc, etc, etc. Ich kann eine Steuerung (temp, pres, Brummen, Sonnenlast, Wind, Niederschlag, usw...) einige Dinge, aber die gleiche Strecke 20 mal läuft ein neuer Kraftstoff Regime deprimierend wäre nur zu testen, und Jahre dauern, bis alle Experimente durchzuführen, die ich tun möchte. Ich kann jedoch aufzeichnen all diese Dinge und mehr (Telemetrie auf dem Fahrrad FTW).

War es hilfreich?

Lösung

Es klingt wie Sie noreferrer"> Regressionsanalyse einige Segmente : <0 ° C; 0 ° C bis 40 ° C; > 40 ° C, oder so. Der Schlüssel ist, die Daten in einer Art und Weise zu transformieren, das entspricht einem rationalen Modell dessen, was in der realen Welt vor sich geht, nicht nur die Daten selbst.


Falls jemand denkt, das ist kein Programmier verwandtes Thema, feststellen, dass Sie die gleichen Techniken verwenden, können die Systemleistung zu analysieren.

Andere Tipps

Mit, dass viele Variablen haben Sie zu viele Dimensionen und Sie können unter Principal Component Analysis aussehen wollen . Es dauert einige der „Kunst“ aus der Regressionsanalyse und läßt die Daten für sich selbst sprechen. Einige Software diese Art von Analyse zu tun ist an der Unterseite der Verbindung gezeigt.

Ich habe das Perl-Modul verwendet Statistik :: Regression für etwas ähnliche Probleme in der Vergangenheit. Seien Sie gewarnt, jedoch, dass Regressionsanalyse ist definitiv eine Kunst. Da die Warnung im Perl-Modul sagt, wird es nicht Sinn machen, wenn Sie nicht über die entsprechende Mathematik gelernt haben.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top