Domanda

ho una variabile il cui valore Vorrei prevedere, e vorrei usare una sola variabile come predittore. Per esempio, prevedere la densità del traffico sulla base di tempo.

Inizialmente, ho pensato di usare auto-organizzante Maps (SOM), che esegue senza sorveglianza di clustering + regressione. Tuttavia, dal momento che ha una componente importante di riduzione di dimensionalità, lo vedo come più appropriato per un gran numero di variabili.

ha senso usarlo per una sola variabile come predittore? Forse ci sono tecniche più adeguate per questo semplice caso: ho usato "Data Mining" invece di "machine learning" nel titolo della mia domanda, perché penso che forse una regressione lineare potrebbe fare il lavoro .. .

È stato utile?

Soluzione

regola comune nel machine learning è quello di provare cose semplici prima . Per predire le variabili continue non c'è niente di più fondamentale di semplice regressione lineare . "Semplice" nei mezzi di nome che c'è solo una variabile predittore utilizzato (+ intercetta, ovviamente):

y = b0 + x*b1

dove b0 è un'intercettazione e b1 è un pendio. Ad esempio, si può decidere di prevedere il consumo di limonata in un parco in base alla temperatura:

cons = b0 + temp * b1

La temperatura è in variabile ben definita continuo. Ma se si parla di qualcosa di più astratto come "tempo", allora è più difficile capire come si misura e la codifica. E 'ok se diciamo che il tempo prende numeri valori {terrible, bad, normal, good, excellent} e valori assegnare da -2 a +2 (il che implica che "eccellente" tempo è due volte più buono come "buono"). Ma cosa succede se il tempo è dato dalle parole {shiny, rainy, cool, ...}? Non possiamo dare un ordine a queste variabili. Chiamiamo tali variabili categorico . In mancanza di un ordine naturale tra diverse categorie, non possiamo codificare come una singola variabile numerica (e regressione lineare prevede solo numeri), ma si può usare cosiddetta manichino encoding : invece di un singolo weather variabile usiamo 3 variabili - [weather_shiny, weather_rainy, weather_cool], uno solo dei quali possono assumere il valore 1, e altri dovrebbero prendere valore 0. In realtà, dovremo eliminare una variabile a causa di collinearità . Quindi, il modello per la previsione di traffico da tempo può apparire come segue:

traffic = b0 + weather_shiny * b1 + weather_rainy * b2  # weather_cool dropped

in cui o b1 o b2 è 1, o entrambi sono 0.

Si noti che è possibile anche incontrare la dipendenza non lineare tra predittore e variabili previsti (si può facilmente controllare tracciando coppie (x,y)). modo più semplice per affrontare il problema senza rifiutare lineare modello è quello di utilizzare le funzionalità di polinomi - basta aggiungere polinomi della vostra caratteristica come nuove funzionalità. Per esempio. per esempio temperatura (per variabili dummy non ha senso, causa 1^n e 0^n sono ancora 1 e 0 per ogni n):

traffic = b0 + temp * b1 + temp^2 * b2 [+ temp^3 * b3 + ...]

Altri suggerimenti

Sono più di un esperto di ETL di dati e combinando / aggregazione che sulle forumulas stessi. Io lavoro spesso con dati meteo. Mi piace dare alcuni suggerimenti sull'utilizzo di dati meteo in analisi.

  1. Due tipi di dati sono riportati in USA / Canada:
    A. Misure
    B. Tempo Tipo

Per quanto tipo di tempo (sole, pioggia, forte temporale) stanno andando già riflettersi in misurazioni (ad esempio, soleggiato, pioggia) e sono ridondanti o sono gli agenti atmosferici e non sono necessariamente riflesse nelle misurazioni .

Per i tipi di intemperie, avrei formule separate.

Per misure, ci sono 7 misurazioni giornaliere standard per riportare Stazione Meteo in Nord America.

Temp Min / Max
precipitazioni
Velocità media del vento
Nuvolosità medio (percentuale)
luce solare totale (minuti)
nevicate
Neve

Non tutte le stazioni segnalano tutte le 7 misurazioni giornaliere. Alcuni riferiscono solo Temp e precipitazioni. Così si consiglia di avere una formula per Temp / precipitazioni e un formule espanse quando tutte e sette le misure sono disponibili.

I due link sottostanti sono NOAA / NWS termini climatiche utilizzati nei loro set di dati:

Questo documento è il vocabolario per le sintesi annuali:

http://www1.ncdc.noaa.gov/ pub / dati / CDO / documentazione / ANNUAL_documentation.pdf

Questo documento è il vocabolario per i riepiloghi giornalieri

http://www1.ncdc.noaa.gov/ pub / dati / CDO / documentazione / GHCND_documentation.pdf

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top