Domanda

Ho valori di produzione (q) da 4 metodi diversi memorizzati nei 4 matrici. Ognuna delle 4 matrici contiene valori q da un metodo differente come:

Matrix_1 = 1 row x 20 column 

Matrix_2 = 100 rows x 20 columns 

Matrix_3 = 100 rows x 20 columns 

Matrix_4 = 100 rows x 20 columns 

Il numero di colonne indicano il numero di anni. 1 fila conterrebbe i valori di produzione corrispondenti ai 20 anni. Altri 99 righe per matrice 2, 3 e 4 sono solo le realizzazioni diverse (o simulazioni). Quindi, in pratica gli altri 99 righe per matrice 2,3 e 4 sono casi di ripetizione (ma non con i valori esatti a causa di numeri casuali).

Si consideri Matrix_1 come la verità di riferimento (o caso base). Ora voglio mettere a confronto gli altri 3 matrici con Matrix_1 per vedere quale tra i tre matrici (ciascuno con 100 ripetizioni) paragona migliore, o strettamente imita, con Matrix_1.

Come può essere fatto in Matlab?

Lo so, manualmente, che usiamo intervallo di confidenza (CI) tracciando il mean of Matrix_1, e il disegno ogni distribuzione di mean of Matrix_2, mean of Matrix_3 e mean of Matrix_4. Il più grande tra CI matrice 2, 3 e 4, che contiene la verità riferimento (o mean of Matrix_1) sarà la risposta.

mean of Matrix_1 = (1 row x 1 column)

mean of Matrix_2 = (100 rows x 1 column)

mean of Matrix_3 = (100 rows x 1 column)

mean of Matrix_4 = (100 rows x 1 column)

Spero che la questione è chiara e rilevante per SO. In caso contrario, non esitate a modificare / suggerire qualcosa in questione. Grazie!

EDIT: I miei tre metodi di cui ho parlato sono: A1, A2 e A3, rispettivamente. Ecco il mio risultato:

ci_a1 =

  1.0e+008 *

   4.084733001497999
   4.097677503988565

ci_a2 =

  1.0e+008 *

   5.424396063219890
   5.586301025525149

ci_a3 =

  1.0e+008 *

   2.429145282593182
   2.838897116739112

p_a1 =

    8.094614835195452e-130

p_a2 =

    2.824626709966993e-072

p_a3 =

    3.054667629953656e-012

h_a1 = 1; h_a2 = 1;  h_a3 = 1

Nessuno dei miei CI, dai tre metodi, include il mean ( = 3.454992884900722e+008) al suo interno. Quindi abbiamo ancora consideriamo p-value di scegliere il risultato migliore?

È stato utile?

Soluzione

Se ho capito bene il calcolo di MATLAB è piuttosto stretto in avanti.

I passaggi 1-2 (calcolo della media):

k1_mean = mean(k1);
k2_mean = mean(k2);
k3_mean = mean(k3);
k4_mean = mean(k4);

Fase 3, utilizzare HIST alla distribuzione trama istogrammi:

hist([k2_mean; k3_mean; k4_mean]')

Passaggio 4. Si può fare t-test confrontando i vettori 2, 3 e 4 contro la distribuzione normale con k1_mean media e la varianza sconosciuta. Vedere TEST.T per i dettagli.

[h,p,ci] = ttest(k2_mean,k1_mean);

Altri suggerimenti

EDIT: Ho interpretato male la tua domanda. Vedere la risposta di Yuk e seguenti osservazioni. La mia risposta è quello che vi serve se si vuole confrontare le distribuzioni di due vettori, invece di un vettore nei confronti di un singolo valore. A quanto pare, quest'ultimo è il caso qui.

Per quanto riguarda le vostre t-test, si dovrebbe tenere a mente che si prova nei confronti di un "vero" media. Dato il numero di valori per ogni matrice e gli intervalli di confidenza non è troppo difficile da indovinare la deviazione standard sui risultati. Questa è una misura della "diffusione" dei risultati. Ora l'errore sul vostro media è calcolata come la deviazione standard dei risultati divisi per il numero di osservazioni. E l'intervallo di confidenza viene calcolato moltiplicando tale errore di serie con appx. 2.

Questo intervallo di confidenza contiene la vera media nel 95% dei casi. Quindi, se la media reale è esattamente al confine di tale intervallo, il valore p è 0,05 più lontano della media, più basso è il valore p. Questo può essere interpretato come la possibilità che i valori che avete in matrice 2, 3 o 4 provengono da una popolazione con un mezzo come nella matrice 1. Se vedete i vostri valori di p, queste possibilità si può dire di essere inesistente.

Così si vede che, quando il numero di valori ottenere elevati, l'intervallo di confidenza diventa più piccolo e il t-test diventa molto sensibile. Che cosa questo si dice, non è altro che le tre matrici differiscono significativamente dalla media. Se dovete scegliere uno, mi piacerebbe dare un'occhiata a distribuzioni comunque. In caso contrario, quello con la media più vicino sembra una buona congettura. Se si desidera ottenere più profondo in questo, si potrebbe anche chiedere il stats.stackexchange.com


La tua domanda e il metodo non è molto chiaro:

  • È la distribuzione di uguali in tutte le colonne? Questo è importante, come due distribuzioni possono avere la stessa media, ma differiscono in modo significativo:

alt text

  • c'è un motivo per cui non si utilizza il teorema del limite centrale? Questo mi sembra un modo molto complessa di ottenere un risultato che può essere facilmente trovato usando il fatto che la distribuzione di una media si avvicina a una distribuzione normale in cui deviazione standard (media) = sd (osservazioni) / numero di osservazioni. Consente di risparmiare un bel po 'di lavoro -se le distribuzioni sono uguali! -

Ora, se la domanda è in realtà il confronto delle distribuzioni, si dovrebbe considerare guardando un QQPlot per un'idea generale, e ad un 2-campione Kolmogorov-Smirnov prova per la prova formale. Ma si prega di leggere questa immagine di prova, come bisogna capire ciò che fa al fine di interpretare correttamente i risultati.

Su un sidenote: se si fa questo test su più casi, assicurarsi di aver compreso il problema dei confronti multipli e utilizzare la correzione del caso, per esempio. Bonferroni o Dunn-Sidak.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top