Pregunta

En primer lugar, debe especificar que mi conocimiento de las estadísticas es bastante limitado, así que por favor me perdone si mi pregunta parece trivial o tal vez ni siquiera tiene sentido.

Tengo datos que no parecen estar distribuidos normalmente. Por lo general, cuando me trazo intervalos de confianza, me gustaría utilizar la media + - 2 desviaciones estándar, pero no creo que es acceptible para una distribución no uniforme. Mi tamaño de la muestra está configurado para 1000 muestras, lo que parecía suficiente para determinar si se trataba de una distribución normal o no.

Yo uso de Matlab para toda mi procesamiento, por lo que hay ninguna función en Matlab que harían que sea fácil de calcular los intervalos de confianza (digamos 95%)?

Sé que hay las funciones cuantil '' y 'prctile', pero no estoy seguro si eso es lo que necesito para usar. La función 'MLE' también devuelve los intervalos de confianza para los datos distribuidos normalmente, aunque también se puede suministrar su propio pdf.

Me vendría ksdensity para crear un pdf para mis datos, y luego alimentar a ese pdf en la función MLE me dan los intervalos de confianza?

Además, ¿cómo hago para determinar si mi datos se distribuyen normalmente. Quiero decir que yo puedo decir actualmente con sólo mirar el histograma o pdf de ksdensity, pero ¿hay una manera de medir cuantitativamente él?

Gracias!

¿Fue útil?

Solución

¿Está seguro que necesita intervalos de confianza o simplemente el rango del 90% de los datos al azar?

Si necesita este último, le sugiero que utilice prctile (). Por ejemplo, si usted tiene un vector de la celebración de muestras independientes idénticamente distribuidas de variables aleatorias, se puede obtener información útil mediante la ejecución

y = prcntile(x, [5 50 95])

Esto devolverá en [y (1), (3) y] el intervalo en el que se producen 90% de sus muestras. Y en y (2) se obtiene la mediana de la muestra.

Probar el ejemplo siguiente (utilizando una variable normalmente distribuida):

t = 0:99;
tt = repmat(t, 1000, 1);
x = randn(1000, 100) .* tt + tt;  % simple gaussian model with varying mean and variance
y = prctile(x, [5 50 95]);

plot(t,  y);
legend('5%','50%','95%')

Otros consejos

Así que hay un par de preguntas allí. Aquí están algunas sugerencias

Tienes razón en que una media de 1.000 muestras deben tener una distribución normal (a menos que sus datos están "colas pesadas", que estoy suponiendo que no es el caso). para obtener un intervalo de 1-alpha-confianza para la media (en su caso alpha = 0.05), puede utilizar la función 'DISTR.NORM.INV'. Por ejemplo decir que queríamos un IC del 95% para la muestra una media de X de datos, entonces podemos escribir

N = 1000;             % sample size
X = exprnd(3,N,1);    % sample from a non-normal distribution
mu = mean(X);         % sample mean (normally distributed)
sig = std(X)/sqrt(N); % sample standard deviation of the mean
alphao2 = .05/2;      % alpha over 2   
CI = [mu + norminv(alphao2)*sig ,...
      mu - norminv(alphao2)*sig  ]

CI =

2.9369    3.3126

Pruebas de si una muestra de datos es normalmente la distribución se puede hacer de muchas maneras. Un método simple es con un diagrama QQ. Para ello, el uso 'qqplot (X)' donde X es su muestra de datos. Si el resultado es aproximadamente una línea recta, la muestra es normal. Si el resultado no es una línea recta, la muestra no es normal.

Por ejemplo, si X = exprnd(3,1000,1) como antes, la muestra no es normal y el qqplot es muy no lineal:

X = exprnd(3,1000,1);
qqplot(X);

text alt

Por otro lado, si los datos es normal la qqplot dará una línea recta:

qqplot(randn(1000,1))

text alt

Se podría considerar, también, el uso de arranque, con el bootci función.

Es posible utilizar el método propuesto en [1]:

MEDIAN +/- 1.7(1.25R / 1.35SQN)

Donde R = rango intercuartil, SQN = la raíz cuadrada de N

Esto se utiliza a menudo en diagramas de caja con muescas, una visualización de datos útil para los datos no normal. Si las muescas de dos medianas no se solapan, las medianas son, aproximadamente, significativamente diferente en alrededor de un nivel de confianza del 95%.

[1] McGill, R., J. W. Tukey, y W. A. ??Larsen. "Variaciones de Boxplots". El Estadístico de América. Vol. 32, No. 1, 1978, pp. 12-16.

No he utilizado Matlab pero desde mi comprensión de las estadísticas, si su distribución no puede ser asumido como distribución normal, entonces usted tiene que tomarlo como la distribución t de Student y calcular intervalo de confianza y precisión.

http://www.stat.yale.edu/ cursos / 1997/98/101 / confint.htm

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top