comportamento dispositivi in ??una variabile continua vs tasso di eventi

https://datascience.stackexchange.com/questions/8245

16-10-2019
|

Domanda

Ho dispositivi sui quali ho serie di dati di tempo di una variabile continua. Devo valutare la relazione tra il profilo di quella variabile su quei dispositivi e "eventi".

Gli eventi sono espressi in termini di avvenimenti su un periodo di tempo.

La mia prima intenzione è quella di rendere grappoli di comportamento simile di quella variabile e confrontare quei grappoli con i bassi tassi di eventi / medio / alta.

stavo pensando di fare un K-means con il min, max, quartilles,, normale valore di p q-q media, Kurstosis, ecc come dimensioni, ma non credo che sia una buona idea, perché:

Tali dimensioni non sono indipendenti
E ' "perdere" i dati e quindi potenzialmente perdere potenziale di classificazione

Hai qualche suggerimento per dispositivi simili raggruppare?

Inoltre, avete altre idee per stabilire quel rapporto?

Contesto:

python3 con la pila SciPy
~ 3000 dispositivi e centinaia di migliaia di dati al giorno; 5 mesi da considerare

Soluzione

Fatto con K-means Clustering con statistiche descrittive come caratteristiche:

In breve, ho provato l'idea descritta nella domanda, anche se pensavo che non funzionerà. Lasciate che l'esperienza di parlare ...

Inizialmente ho avuto un elenco di dati di dispositivi. Ogni elemento della lista erano 2 colonne, righe matrice R, e R è diverso per ciascun dispositivo. Così, per dispositivo:

[
    [mesureValue, timestamp],
    ..., 
    [mesureValue, timestamp],
]

Da Mi interessa solo nella distribuzione measureValue, ho trasforma i dati inital ad A 8 colonne, righe matrice N, dove N = numero di dispositivi.

Le colonne sono, calcolato sul valore di misura del dispositivo correponding:

Media aritmetica
mediano
Primo quartille
Terzo quartille
Minimo
max
Gamma
La deviazione standard

Con questa matrice, ho applicato K-means utilizzando scikit imparare (python).

Ho fatto il collegamento tra la linea di matrice e il dispositivo fisico utilizzando pandi dati Frames (pitone) che è indice di riga sono infatti il ??numero di serie del dispositivo.

ho provato con 5 grappoli, e funziona.

Solo in caso di, se ho bisogno di miglioramenti in futuro, ho intenzione di aggiungere altre statistiche nelle colonne, in particolare per la deviazione rispetto la normalità. Così, per esempio Kurstosis e normale valore q q-plot p.

Con i migliori saluti.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange