Pergunta

  • Eu quero obter o máximo de fora de um processo de desempenho com muitas variáveis, muitos dos quais não podem ser controlados.
  • Não consigo executar milhares de experimentos, por isso seria bom se eu poderia correr centenas de experiências e
    • variam muitos parâmetros controláveis ??
    • Dados recolher sobre muitos parâmetros que indicam o desempenho
    • 'correta', tanto quanto possível, para esses parâmetros eu não conseguia controlar
    • Tease os 'melhores' valores para as coisas que eu posso controlar, e começar tudo de novo

Parece que isso seria chamado de mineração de dados, onde você está indo através de toneladas de dados que não aparecem imediatamente se relacionar, mas não mostra correlação depois de algum esforço.

Então ... Onde eu começar a olhar para os algoritmos, conceitos, teoria desse tipo de coisa? Mesmo termos relacionados para fins de pesquisa seria útil.

Fundo: Eu gosto de fazer a ciclagem ultra-maratona, e manter registros de cada viagem. Eu gostaria de manter mais dados, e depois de centenas de passeios ser capaz de puxar para fora a informação sobre como eu executar.

No entanto, tudo varia - rotas, ambiente, combustível, atitude, peso, carga de água, etc, etc, etc. I pode controlar um (temperatura, pres, hum, carga sol, vento, precip, etc...) algumas coisas, mas correndo o mesmo caminho 20 vezes para testar um novo regime de combustível seria apenas deprimente, e levar anos para realizar todas as experiências que eu gostaria de fazer. Posso, no entanto, gravar todas essas coisas e muito mais (telemetria de bicicleta FTW).

Foi útil?

Solução

Parece que você quiser fazer alguma análise de regressão . Você certamente tem abundância de dados!


A análise de regressão é uma técnica de modelagem extremamente comum em estatística e ciência. (Pode-se argumentar que as estatísticas é a arte ea ciência de análise de regressão.) Há muitos pacotes de estatísticas lá fora para fazer o cálculo que você precisa. (Eu recomendo um, mas eu sou anos fora da data.)

A mineração de dados tem obtido um mau nome porque demasiadas vezes as pessoas assumem correlação é igual a causalidade. Descobri que uma técnica boa é começar com variáveis ??você sabe que tem uma influência e construir um modelo estatístico em torno deles em primeiro lugar. Então você sabe que o vento, peso e subir ter uma influência sobre o quão rápido você pode viajar e software estatístico pode ter o seu conjunto de dados e calcular o que a correlação entre esses fatores são. Isso lhe dará um modelo estatístico ou equação linear:

speed = x*weight + y*wind + z*climb + constant

Quando você explorar novas variáveis, você será capaz de ver se o modelo é melhorada ou não comparando a bondade de métrica ajuste como R-quadrado. Então você pode verificar se a temperatura ou a hora do dia acrescenta nada ao modelo.

Você pode querer aplicar uma transformação para você dados. Por exemplo, você pode achar que você executar melhor em dias mais frios. Mas realmente dias frios e dias muito quentes pode prejudicar o desempenho. Nesse caso, é possível atribuir as temperaturas para lixeiras ou segmentos : <0 ° C; 0 ° C a 40 ° C; > 40 ° C, ou alguns tal. A chave é transformar os dados de uma forma que corresponda a um modelo racional do que está acontecendo no mundo real, não apenas os dados em si.


No caso de alguém acha que isso não é um tópico relacionado a programação, observe que você pode usar essas mesmas técnicas para analisar o desempenho do sistema.

Outras dicas

Com que muitas variáveis ??você tem muitas dimensões e você pode querer olhar em Análise de Componentes Principais . Ele tira um pouco da "arte" fora da análise de regressão e permite que os dados falam por si. Algum software para fazer esse tipo de análise é mostrado na parte inferior do link.

Eu tenho usado o Perl módulo Estatísticas :: Regressão para problemas pouco semelhantes no passado. Esteja avisado, no entanto, que a análise de regressão é definitivamente uma arte. Como o aviso no módulo Perl diz, não vai fazer sentido para você, se você ainda não aprendeu a matemática adequada.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top