Domanda

  • Voglio ottenere le massime prestazioni da un processo con molte variabili, molte delle quali non possono essere controllate.
  • Non posso eseguire migliaia di esperimenti, quindi sarebbe bello se potessi eseguire centinaia di esperimenti e
    • varia molti parametri controllabili
    • raccoglie dati su molti parametri che indicano le prestazioni
    • "corretto", per quanto possibile, per quei parametri che non sono riuscito a controllare
    • Prendi in giro i valori "migliori" per quelle cose che posso controllare e ricominciare tutto da capo

Sembra che questo sarebbe chiamato data mining, in cui si stanno esaminando tonnellate di dati che non sembrano immediatamente correlati, ma mostrano correlazione dopo qualche sforzo.

Quindi ... Da dove inizio guardando algoritmi, concetti, teoria di questo genere di cose? Anche i termini correlati ai fini della ricerca sarebbero utili.

Background: mi piace fare ciclismo ultra-maratona e tenere i registri di ogni corsa. Mi piacerebbe conservare più dati e dopo centinaia di corse essere in grado di estrarre informazioni su come mi esibisco.

Tuttavia, tutto varia - rotte, ambiente (temperatura, pressione, ronzio, carico del sole, vento, precipitazione, ecc.), carburante, assetto, peso, carico dell'acqua, ecc. ecc. Posso controllare un poche cose, ma percorrere la stessa rotta 20 volte per testare un nuovo regime di carburante sarebbe solo deprimente e impiegherebbero anni per eseguire tutti gli esperimenti che mi piacerebbe fare. Posso, tuttavia, registrare tutte queste cose e altro (telemetria sulla bicicletta FTW).

È stato utile?

Soluzione

Sembra che tu voglia fare alcune analisi di regressione . Hai sicuramente molti dati!


L'analisi di regressione è una tecnica di modellistica estremamente comune in statistica e scienza. (Si potrebbe sostenere che la statistica è l'arte e la scienza dell'analisi di regressione.) Esistono molti pacchetti statistici là fuori per fare il calcolo di cui avrete bisogno. (Consiglierei uno, ma sono anni obsoleti.)

Il data mining ha avuto un brutto nome perché troppo spesso le persone assumono che la correlazione sia uguale alla causalità. Ho scoperto che una buona tecnica è iniziare con variabili che sai avere un'influenza e costruire prima un modello statistico attorno a esse. Quindi sai che il vento, il peso e la salita influenzano la velocità con cui puoi viaggiare e il software statistico può prendere il tuo set di dati e calcolare quale sia la correlazione tra questi fattori. Questo ti darà un modello statistico o un'equazione lineare:

speed = x*weight + y*wind + z*climb + constant

Quando esplori nuove variabili, sarai in grado di vedere se il modello è stato migliorato o meno confrontando una bontà della metrica di adattamento come R-quadrato. Quindi potresti verificare se la temperatura o l'ora del giorno aggiungono qualcosa al modello.

Potresti voler applicare una trasformazione ai tuoi dati. Ad esempio, potresti scoprire di avere prestazioni migliori nei giorni più freddi. Ma giorni davvero freddi e giorni molto caldi potrebbero danneggiare le prestazioni. In tal caso, è possibile assegnare temperature ai contenitori o segmenti : & Lt; 0 # 176 &; C; 0 & # 176; C a 40 & # 176; C; gt &; 40 & # 176; C o alcuni di questi. La chiave è trasformare i dati in un modo che corrisponda a un modello razionale di ciò che sta accadendo nel mondo reale, non solo i dati stessi.


Nel caso in cui qualcuno pensi che questo non sia un argomento relativo alla programmazione, nota che puoi usare queste stesse tecniche per analizzare le prestazioni del sistema.

Altri suggerimenti

Con così tante variabili hai troppe dimensioni e potresti voler guardare Analisi dei componenti principali . Prende parte del & Quot; art & Quot; dall'analisi di regressione e lascia che i dati parlino da soli. Alcuni software per eseguire questo tipo di analisi sono mostrati nella parte inferiore del link.

Ho usato il modulo Perl Statistics :: Regression per problemi alquanto simili in passato. Tieni presente, tuttavia, che l'analisi di regressione è sicuramente un'arte. Come dice l'avvertimento nel modulo Perl, non avrà senso per te se non hai imparato la matematica appropriata.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top