¿Cómo obtener resultados científicos a partir de datos no experimentales (¿minería de datos?)

StackOverflow https://stackoverflow.com/questions/105996

  •  01-07-2019
  •  | 
  •  

Pregunta

  • Quiero obtener el máximo rendimiento de un proceso con muchas variables, muchas de las cuales no se pueden controlar.
  • No puedo realizar miles de experimentos, así que sería bueno si pudiera realizar cientos de experimentos y
    • variar muchos parámetros controlables
    • recopilar datos sobre muchos parámetros que indican el rendimiento
    • 'correcto', tanto como sea posible, para aquellos parámetros que no pude controlar
    • Descubra los "mejores" valores para aquellas cosas que puedo controlar y empiece de nuevo.

Parece que esto se llamaría minería de datos, donde se analizan toneladas de datos que no parecen estar relacionados de inmediato, pero que muestran correlación después de un poco de esfuerzo.

Entonces...¿Por dónde empiezo a mirar algoritmos, conceptos y teorías de este tipo de cosas?Incluso los términos relacionados para fines de búsqueda serían útiles.

Fondo:Me gusta hacer ciclismo de ultramaratón y llevar registros de cada recorrido.Me gustaría conservar más datos y, después de cientos de recorridos, poder obtener información sobre mi desempeño.

Sin embargo, todo varía: rutas, entorno (temperatura, presión, zumbido, carga solar, viento, precipitación, etc.), combustible, actitud, peso, carga de agua, etc, etc, etc.Puedo controlar algunas cosas, pero recorrer la misma ruta 20 veces para probar un nuevo régimen de combustible sería simplemente deprimente y llevaría años realizar todos los experimentos que me gustaría hacer.Sin embargo, puedo registrar todas estas cosas y más (telemetría en bicicleta FTW).

¿Fue útil?

Solución

Parece que quieres hacer algo análisis de regresión.¡Seguro que tienes muchos datos!


El análisis de regresión es una técnica de modelado extremadamente común en estadística y ciencia.(Se podría argumentar que la estadística es el arte y la ciencia del análisis de regresión). Existen muchos paquetes de estadísticas para realizar los cálculos que necesitará.(Recomendaría uno, pero tengo años desactualizado).

La minería de datos ha adquirido mala fama porque con demasiada frecuencia la gente asume que correlación es igual a causalidad.Descubrí que una buena técnica es comenzar con variables que sabes que tienen influencia y construir primero un modelo estadístico en torno a ellas.Entonces sabes que el viento, el peso y la subida influyen en la velocidad a la que puedes viajar y el software estadístico puede tomar tu conjunto de datos y calcular cuál es la correlación entre esos factores.Eso le dará un modelo estadístico o ecuación lineal:

speed = x*weight + y*wind + z*climb + constant

Cuando explore nuevas variables, podrá ver si el modelo mejora o no comparando una métrica de bondad de ajuste como R-cuadrado.Así que puedes comprobar si la temperatura o la hora del día aportan algo al modelo.

Es posible que desee aplicar una transformación a sus datos.Por ejemplo, es posible que descubras que rindes mejor en los días más fríos.Pero los días muy fríos y muy calurosos pueden afectar el rendimiento.En ese caso, podría asignar temperaturas a contenedores o segmentos:< 0°C;0°C a 40°C;> 40°C, o algo así.La clave es transformar los datos de manera que coincidan con un modelo racional de lo que sucede en el mundo real, no sólo los datos en sí.


En caso de que alguien piense que este no es un tema relacionado con la programación, tenga en cuenta que puede utilizar estas mismas técnicas para analizar el rendimiento del sistema.

Otros consejos

Con tantas variables tienes demasiadas dimensiones y es posible que quieras mirar Análisis de componentes principales.Le quita parte del "arte" al análisis de regresión y deja que los datos hablen por sí mismos.En la parte inferior del enlace se muestra algún software para realizar ese tipo de análisis.

He usado el módulo Perl. Estadísticas::Regresión para problemas algo similares en el pasado.Tenga en cuenta, sin embargo, que el análisis de regresión es definitivamente un arte.Como dice la advertencia en el módulo Perl, no tendrá sentido para usted si no ha aprendido las matemáticas adecuadas.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top