如何获得科学成果,从非的实验数据(数据挖掘?)
-
01-07-2019 - |
题
- 我想得到最大效能的过程中与许多变量,其中许多无法控制的。
- 我不能运行成千上万的实验,所以它将会是很好如果我能运行数百个实验
- 改变许多可控制的参数
- 收集数据,对许多参数的指示性能
- '正确',尽可能为这些参数我不能控制
- 梳理出"最佳"值为那些事我能控制、并重新开始
这感觉就像这将被称为数据采矿,你要去哪里通过吨的数据不立即出现的涉及,但并展示相关关系后,一些努力。
所以...我从哪里开始寻找算法、概念、理论这样的事情?甚至相关条款的目的,搜索将是有益的。
背景:我喜欢做超级马拉松骑自行车,并保持记录的每一个旅程。我想保持更多的数据,以及之后数以百计的游乐设施可以拉出的信息是关于如何我执行。
但是,一切变化路线、环境(temp,pres., 哼., 太阳载、风能、得最多., 等等)、燃料、态度、重量、水负载,等等,等等,等等。我可以控制一些事情,但是运行的同样路线,20倍来测试一种新的燃料制度只会令人沮丧的,并且需要几年的时间来执行所有的实验中,我想做的事。我可以,但是,记录所有这些事情和更多(遥测在自行车上的融通).
解决方案
它听起来像是你想做一些 回归分析.你肯定有足够的数据。
回归分析是一种极为常见的建模技术在统计数据和科学。(它可以争辩说,统计数字艺术和科学的回归分析。) 有许多统计数据包出去做的计算只需要。(我建议之一,但我多年的日期。)
数据挖掘了一个坏的名字,因为太多人假定相关平等的因果关系。我发现一个好的方法是启动的变量与你知道的影响,并建立一个统计模型周围他们第一次。所以你知道风、重量和爬具有影响力的速度有多快,你可以旅行和统计软件可以把你的数据集和计算之间的相关性的那些因素。这会给你一个统计模型或线性方程式:
speed = x*weight + y*wind + z*climb + constant
当你探索新的变量,你将能够看到,如果模型被改进或不通过比较善良的合适指标如R-的平方。所以你可以检查,如果温度或者一天中的时间增加了任何模型。
你可能想到应用转变到你的数据。例如,你可能会发现更好地执行在寒冷的日子。但真的很冷天真的很热天可能会伤害性。在这种情况下,你可以指定温箱或 分段:< 0°C;0°C至40°C;>40°C,或一些这样的。关键是要将数据变换的方式匹配的一个合理的模型的什么是真实的世界,不只是本数据本身。
在情况下有人认为这不是一个程序有关的主题,注意到可以使用这些相同的技术分析系统的性能。