Calcular significancia estadística con Excel

https://stackoverflow.com/questions/1232615

22-07-2019
|

Pregunta

Tengo 2 columnas y varias filas de datos en Excel. Cada columna representa un algoritmo y los valores en filas son el resultado de estos algoritmos con diferentes parámetros. Quiero hacer una prueba de significación estadística de estos dos algoritmos con Excel. ¿Alguien puede sugerir una función?

Como resultado, sería bueno decir algo como "Algoritmo A funciona 8% mejor que Algoritmo B con .9 probabilidad (o intervalo de confianza de 95%)".

El artículo de wikipedia explica con precisión lo que necesito: http://en.wikipedia.org/wiki/Statistical_significance

Parece una tarea muy fácil, pero no pude encontrar una función de medición científica.

Se agradece cualquier consejo sobre una función integrada de Excel o fragmentos de función.

Gracias ..

Editar:

Después de los comentarios de tharkun, me di cuenta de que debía aclarar algunos puntos: Los resultados son simplemente números reales entre 1-100 (son valores porcentuales). Como cada fila representa un parámetro diferente, los valores en una fila representan el resultado de un algoritmo para este parámetro. Los resultados no dependen el uno del otro. Cuando tomo el promedio de todos los valores para el Algoritmo A y el Algoritmo B, veo que la media de todos los resultados que produjo el Algoritmo A es 10% más alta que la del Algoritmo B. Pero no sé si esto es estadísticamente significativo o no. En otras palabras, quizás para un parámetro, el Algoritmo A obtuvo un puntaje 100 por ciento más alto que el Algoritmo B y para el resto, el Algoritmo B tiene puntajes más altos, pero solo por este resultado, la diferencia en promedio es del 10%. Y quiero hacer este cálculo usando solo Excel.

Solución

Gracias por la aclaración. En ese caso, desea hacer una prueba T de muestra independiente. Lo que significa que desea comparar las medias de dos conjuntos de datos independientes.

Excel tiene una función TTEST, eso es lo que necesita.

Para su ejemplo, probablemente debería usar dos colas y escribir 2.

La fórmula generará un valor de probabilidad conocido como probabilidad de error alfa. Este es el error que haría si asumiera que los dos conjuntos de datos son diferentes pero no lo son. Cuanto menor sea la probabilidad de error alfa, mayor será la probabilidad de que sus conjuntos sean diferentes.

Solo debe aceptar la diferencia de los dos conjuntos de datos si el valor es inferior a 0.01 (1%) o para resultados críticos incluso 0.001 o inferior. También debe saber que en la prueba t necesita al menos alrededor de 30 valores por conjunto de datos para ser lo suficientemente confiable y que la prueba de tipo 2 supone variaciones iguales de los dos conjuntos de datos. Si no se dan variaciones iguales, debe usar la prueba de tipo 3.

http://depts.alverno.edu/nsmt/stats.htm

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow