Comment obtenir des résultats scientifiques à partir de données non expérimentales (datamining?)

StackOverflow https://stackoverflow.com/questions/105996

  •  01-07-2019
  •  | 
  •  

Question

  • Je souhaite obtenir les performances maximales d'un processus comportant de nombreuses variables, dont beaucoup ne peuvent pas être contrôlées.
  • Je ne peux pas lancer des milliers d'expériences, alors ce serait bien si je pouvais faire des centaines d'expériences et
    • faire varier de nombreux paramètres contrôlables
    • collecter des données sur de nombreux paramètres indiquant les performances
    • "correct", autant que possible, pour les paramètres que je ne pouvais pas contrôler
    • Déterminez les "meilleures" valeurs pour les choses que je peux contrôler et recommencez tout

On dirait que cela s'appelle l'exploration de données, où vous parcourez des tonnes de données qui ne semblent pas avoir de lien immédiat, mais qui montrent une corrélation après quelques efforts.

Alors ... Où est-ce que je commence à regarder des algorithmes, des concepts, une théorie de ce genre de chose? Même des termes apparentés à des fins de recherche seraient utiles.

Contexte: J'aime faire du cyclisme ultra-marathon et tenir des journaux de chaque course. J'aimerais conserver plus de données et pouvoir, après des centaines de sorties, obtenir des informations sur mes performances.

Cependant, tout varie - itinéraires, environnement (température, prés., hum., charge solaire, vent, précipitations, etc.), carburant, attitude, poids, charge en eau, etc., etc. Je peux contrôler Peu de choses, mais suivre le même itinéraire 20 fois pour tester un nouveau régime de carburant serait simplement déprimant et il faudrait des années pour réaliser toutes les expériences que je voudrais faire. Je peux cependant enregistrer toutes ces choses et plus encore (télémétrie sur vélo FTW).

Était-ce utile?

La solution

Il semble que vous souhaitiez effectuer une analyse de régression . Vous avez certainement beaucoup de données!

L’analyse de régression est une technique de modélisation extrêmement courante en statistique et en science. (On pourrait soutenir que les statistiques sont l'art et la science de l'analyse de régression.) Il existe de nombreux logiciels de statistiques permettant d'effectuer les calculs dont vous avez besoin. (Je vous en recommande un, mais je suis obsolète depuis plusieurs années.)

L'exploration de données a mauvaise réputation, car trop souvent, les gens supposent que corrélation est synonyme de causalité. J'ai trouvé qu'une bonne technique consiste à commencer par les variables dont vous savez qu'elles ont une influence et à construire d'abord un modèle statistique autour de celles-ci. Vous savez donc que le vent, le poids et la montée ont une influence sur la vitesse à laquelle vous pouvez voyager. Un logiciel statistique peut prendre votre jeu de données et calculer la corrélation entre ces facteurs. Cela vous donnera un modèle statistique ou une équation linéaire:

speed = x*weight + y*wind + z*climb + constant

Lorsque vous explorerez de nouvelles variables, vous pourrez voir si le modèle est amélioré ou non en comparant une métrique de qualité d'ajustement telle que R-carré. Vous pouvez donc vérifier si la température ou l’heure de la journée ajoute quelque chose au modèle.

Vous pouvez appliquer une transformation à vos données. Par exemple, vous constaterez peut-être que vos performances sont meilleures les jours les plus froids. Mais les journées très froides et les journées très chaudes peuvent nuire aux performances. Dans ce cas, vous pouvez attribuer des températures aux bacs ou aux segments : & Lt; 0 & # 176; C; 0 & # 176; C à 40 & # 176; C; > 40 & # 176; C, ou quelque chose du genre. L’important est de transformer les données d’une manière qui corresponde à un modèle rationnel de ce qui se passe dans le monde réel, et pas seulement aux données elles-mêmes.

Au cas où quelqu'un penserait qu'il ne s'agit pas d'un sujet lié à la programmation, notez que vous pouvez utiliser ces mêmes techniques pour analyser les performances du système.

Autres conseils

Avec autant de variables, vous avez trop de dimensions et vous pouvez consulter Analyse en composantes principales . Il faut une partie de & "; Art &"; hors de l'analyse de régression et laisse les données parler pour lui-même. Certains logiciels permettant d'effectuer ce type d'analyse sont indiqués en bas du lien.

J'ai utilisé le module Perl Statistics :: Regression pour des problèmes un peu similaires dans le passé. Soyez averti, cependant, que l'analyse de régression est définitivement un art. Comme le dit l’avertissement dans le module Perl, cela n’aura aucun sens si vous n’avez pas appris le calcul approprié.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top