Pregunta

Tengo producción (q) los valores de 4 métodos diferentes almacenados en las 4 matrices. Cada uno de los 4 matrices contiene valores de q de un método diferente como:

Matrix_1 = 1 row x 20 column 

Matrix_2 = 100 rows x 20 columns 

Matrix_3 = 100 rows x 20 columns 

Matrix_4 = 100 rows x 20 columns 

El número de columnas indican el número de años. 1 fila contendrá los valores de producción correspondientes a los 20 años. Otros 99 filas para la matriz 2, 3 y 4 son sólo los diferentes realizaciones (o ejecuta la simulación). Así que, básicamente, los otros 99 filas de la matriz 2,3 y 4 son los casos de repetición (pero no con los valores exactos a causa de números aleatorios).

Considere Matrix_1 como la verdad de referencia (o caso base). Ahora quiero comparar los otros 3 matrices con Matrix_1 para ver cuál entre las tres matrices (cada uno con 100 repeticiones) compara mejor, o estrechamente imita, con Matrix_1.

¿Cómo se puede hacer esto en Matlab?

Sé que, de forma manual, que utilizamos intervalo de confianza (IC) mediante el trazado de la mean of Matrix_1, y dibujar cada distribución de mean of Matrix_2, mean of Matrix_3 y mean of Matrix_4. El mayor CI entre la matriz 2, 3 y 4 que contiene la verdad de referencia (o mean of Matrix_1) será la respuesta.

mean of Matrix_1 = (1 row x 1 column)

mean of Matrix_2 = (100 rows x 1 column)

mean of Matrix_3 = (100 rows x 1 column)

mean of Matrix_4 = (100 rows x 1 column)

Espero que la pregunta es clara y pertinente a SO. De lo contrario no dude en editar / sugerir cualquier cosa en cuestión. Gracias!

EDIT: Mis tres métodos que hablé son: A1, A2 y A3 respectivamente. Aquí está mi resultado:

ci_a1 =

  1.0e+008 *

   4.084733001497999
   4.097677503988565

ci_a2 =

  1.0e+008 *

   5.424396063219890
   5.586301025525149

ci_a3 =

  1.0e+008 *

   2.429145282593182
   2.838897116739112

p_a1 =

    8.094614835195452e-130

p_a2 =

    2.824626709966993e-072

p_a3 =

    3.054667629953656e-012

h_a1 = 1; h_a2 = 1;  h_a3 = 1

No es de mi CI, a partir de los tres métodos, incluye la mean ( = 3.454992884900722e+008) su interior. Así nosotros seguimos considerando el valor p para elegir el mejor resultado?

¿Fue útil?

Solución

Si he entendido bien el cálculo en MATLAB es bastante estrecho hacia adelante.

Pasos 1-2 (cálculo de la media):

k1_mean = mean(k1);
k2_mean = mean(k2);
k3_mean = mean(k3);
k4_mean = mean(k4);

Paso 3, utilice HIST para distribución parcela histogramas:

hist([k2_mean; k3_mean; k4_mean]')

Paso 4. Se puede hacer la prueba t de comparación de sus vectores 2, 3 y 4 en contra k1_mean distribución normal con media y varianza desconocida. Ver PRUEBA.T para más detalles.

[h,p,ci] = ttest(k2_mean,k1_mean);

Otros consejos

EDIT: malinterpretado su pregunta. Ver la respuesta de Yuk y siguientes comentarios. Mi respuesta es lo que necesita si desea comparar las distribuciones de dos vectores en lugar de un vector contra un solo valor. Al parecer, este último es el caso aquí.

En cuanto a sus pruebas t, usted debe tener en cuenta que ponen a prueba en contra de un "verdadero" media. Dado el número de valores para cada matriz y los intervalos de confianza que no es demasiado difícil de adivinar la desviación estándar de los resultados. Esta es una medida de la "propagación" de sus resultados. Ahora el error en su media se calcula como la desviación estándar de los resultados dividido por el número de observaciones. Y el intervalo de confianza se calcula multiplicando ese error estándar con aprox. 2.

Este intervalo de confianza contiene la verdadera media en el 95% de los casos. Así que si la media verdadera es exactamente en la frontera de ese intervalo, el valor de p es de 0,05 cuanto más lejos de la media, menor es el valor de p. Esto se puede interpretar como la probabilidad de que los valores que tiene en la matriz 2, 3 o 4 proceden de una población con una media como en la matriz 1. Si usted ve a sus valores de p, estas posibilidades se puede decir que sea inexistente.

Así que ya ves que cuando el número de valores drogarse, el intervalo de confianza se hace más pequeño y el t-test se vuelve muy sensible. Lo que esto te dice, no es nada más que las tres matrices difieren significativamente de la media. Si tiene que elegir uno, me gustaría echar un vistazo a las distribuciones de todos modos. De lo contrario, el que tiene la media más cercano parece una buena conjetura. Si desea obtener más profundamente en esto, también se puede pedir en stats.stackexchange.com


Su pregunta y su método no es muy clara:

  • ¿Es la distribución igual en todas las columnas? Esto es importante, ya que dos distribuciones pueden tener la misma media, pero difieren significativamente:

text alt

  • ¿hay una razón por la que no se utiliza el teorema del límite central? Esto me parece una forma muy compleja de obtener un resultado que se puede llegar con facilidad usando el hecho de que la distribución de la media se aproxima a una distribución normal, donde SD (media) = sd (observaciones) / número de observaciones. le ahorra un poco de trabajo -si las distribuciones son iguales! -

Ahora bien, si la pregunta es realmente la comparación de las distribuciones, se debe considerar mirando un qqplot para una idea general, y en una de 2 muestras prueba de Kolmogorov-Smirnov para la prueba formal. Pero, por favor leer en esta prueba, ya que usted tiene que entender lo que hace con el fin de interpretar correctamente los resultados.

En una nota: si lo hace esta prueba en múltiples casos, asegúrese de entender el problema de las comparaciones múltiples y utilizar la corrección apropiada, por ejemplo. Bonferroni o Dunn-Sidak.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top