Domanda

Ho un insieme di dati che contiene i dati sulla temperatura, le precipitazioni, e le rese di soia per una fattoria per 10 anni (2005 - 2014). Vorrei prevedere rendimenti per il 2015 sulla base di questi dati.

nota che l'insieme di dati ha valori giornalieri di temperatura e precipitazioni, ma solo 1 valore all'anno per il rendimento (in quanto raccolta di coltura avviene al termine della stagione di crescita della coltura).

Vorrei costruire una regressione o di qualche altra macchina di apprendimento modello basato per prevedere i rendimenti 2015, sulla base di una regressione / qualche altro modello derivato studiando il rapporto tra i rendimenti e la temperatura e le precipitazioni negli anni precedenti.

Secondo, costruire un modello di apprendimento automatico per prevedere i raccolti sulla base dei dati ambientali , sto usando sklearn.cross_validation.LabelKFold per assegnare ogni anno la stessa etichetta.

Il problema è che dal momento che ho un unico valore di riferimento l'anno, devo interpolare compilare valori di riferimento per tutti gli altri giorni dell'anno? Devo solo utilizzare lo stesso valore di destinazione per ogni giorno dell'anno?

È stato utile?

Soluzione

Il modello sarà probabilmente non ha molto potere predittivo se l'ingresso è un solo giorno. Non ci sono modelli meteorologici più di un giorno possono essere catturate in questo modo.

Invece si dovrebbe aggregare i giorni insieme. Si può venire con diverse caratteristiche che descrivono l'unità più grande, aggregato di tempo (mesi, anno). Ad esempio precipitazione media è molto semplice. Binning i dati e l'utilizzo di conti all'interno di tali contenitori sarebbe anche il lavoro.

Altre opzioni avanzate rotolavano la volta tutta la strada fino ad un anno intero e imparare un set di funzioni a quel livello.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top