Como calculo essas estatísticas?

https://stackoverflow.com/questions/1679

08-06-2019
|

Pergunta

Estou escrevendo um aplicativo para ajudar a facilitar algumas pesquisas, e parte disso envolve fazer alguns cálculos estatísticos.No momento, os pesquisadores estão usando um programa chamado SPSS.Parte da saída que lhes interessa é assim:

[Part of the SPSS output

Eles estão realmente preocupados apenas com o F e Sig. valores.Meu problema é que não tenho experiência em estatística e não consigo descobrir como são chamados os testes ou como calculá-los.

Eu pensei que o F valor pode ser o resultado do Teste F, mas depois de seguir os passos dados na Wikipedia, obtive um resultado diferente do que SPSS dá.

Solução

Esse site pode ajudá-lo um pouco mais.Também Este.

Estou trabalhando com uma memória bastante enferrujada de um curso de estatística, mas aqui vai nada:

Ao fazer análise de variância (ANOVA), você realmente calcula a estatística F como a razão entre as variâncias quadradas médias "entre os grupos" e as variâncias quadradas médias "dentro dos grupos".O segundo link acima parece muito bom para este cálculo.

Isso faz com que a estatística F meça exatamente o quão poderoso é o seu modelo, porque a variância "entre os grupos" é o poder explicativo e a variância "dentro dos grupos" é um erro aleatório.High F implica um modelo altamente significativo.

Como em muitas operações estatísticas, você determina Sig retroativamente.usando a estatística F.É aqui que as informações da Wikipedia são um pouco úteis.O que você quer fazer é - usando os graus de liberdade fornecidos pelo SPSS - encontrar o valor P adequado no qual um Tabela F lhe dará a estatística F que você calculou.O valor P onde isso acontece [F(tabela) = F(calculado)] é a significância.

Conceitualmente, um valor de significância mais baixo mostra uma capacidade muito forte de rejeitar a hipótese nula (o que para esses fins significa determinar se seu modelo tem poder explicativo).

Desculpe a qualquer pessoa da matemática se algo disso estiver errado.Voltarei para fazer edições!!!

Boa sorte para você.Estatísticas são divertidas, mas talvez não nesta parte.=)

Outras dicas

Presumo, com base na sua pergunta, que seus colegas de pesquisa desejam automatizar o processo pelo qual certas análises estatísticas são realizadas (ou seja, eles desejam processar conjuntos de dados em lote).Você tem duas opções:

1) SPSS agora pode ser programado por meio de python (a partir da versão 15) - acesse spss.com e pesquise python.Você pode escrever scripts python para automatizar análises de dados e extrair valores-chave de tabelas dinâmicas e, em seguida, processar as respostas da maneira que desejar.Isso tem a virtude de permitir uma comparação exata entre os resultados do seu script python e os esforços calculados manualmente no SPSS de seus colaboradores.Assim, você não precisará realmente conhecer nenhuma estatística para fazer este trabalho (o que é uma vantagem importante)

2) Você poderia fazer isso em R, um ambiente de estatísticas gratuito, que provavelmente poderia ser programado.Isso tem a desvantagem de que você terá que aprender estatísticas para garantir que está fazendo isso corretamente.

Estatísticas são difíceis :-).Depois de um ano lendo e relendo livros e artigos, só posso dizer com segurança que entendo o básico disso.

Você pode querer investigar bibliotecas prontas para qualquer linguagem de programação que estiver usando, porque elas são muitas pegadinhas em matemática em geral e estatística em particular (erros de arredondamento são um exemplo óbvio).

Como exemplo você poderia dar uma olhada em o projeto R, que é ao mesmo tempo um ambiente interativo e uma biblioteca que você pode usar a partir do seu código C++, distribuído sob a GPL (ou seja, se você estiver usando apenas internamente e publicando apenas os resultados, não será necessário abrir o código).

Resumidamente:não faça isso manualmente, vincule/use software existente.E a resposta de sain_grocen está incorreta.:(

Todos esses são testes de significância de estimativas de parâmetros que normalmente são usados em regressões múltiplas de resposta multivariada.Estas não seriam coisas simples de se fazer fora de um ambiente de programação estatística.Eu sugeriria obter a saída de um programa estatístico pré-existente ou usar um ao qual você possa vincular e usar esse código.

Receio que a primeira resposta (de sain_grocen) o leve ao caminho errado.A explicação dele provavelmente se refere a um caso especial daquilo com que você realmente está lidando.A anova explicada em seus links é para uma resposta única variável, em um design equilibrado.Estas não são as estatísticas F que você está vendo.Os nomes na sua saída (Pillai's Trace, Hotelling's Trace,...) são algumas das versões multivariadas disponíveis.Eles têm distribuições F sob certas suposições.Não posso explicar um livro de livros de material aqui, eu aconselho você a começar olhando para "Análise Estatística Multivariada Aplicada", de Johnson e Wichern

Você pode explicar mais por que o próprio SPSS não é uma boa solução para o problema?Será que ele gera tabelas dinâmicas como saídas difíceis de manipular?É o custo do programa?

As estatísticas F podem surgir de qualquer número de testes específicos.O F é apenas uma distribuição (vagamente:uma descrição das "frequências" de grupos de valores), como Normal (Gaussiano) ou Uniforme.Em geral, surgem de proporções de variâncias.Opinião:muitos estatísticos (inclusive eu) consideram os testes baseados em F instáveis (jargão:não-robusto).

As estatísticas de saída específicas (traço de Pillai, etc.) sugerem que a análise original é um exemplo MANOVA, que, como outros autores descrevem, é um procedimento complicado e difícil de acertar.

Suponho também que, com base no MANOVA, e no uso do SPSS, este é um projeto de psicologia ou sociologia...se não, por favor, esclareça.Pode ser que outros modelos mais simples sejam realmente mais fáceis de entender e mais repetíveis.Consulte o grupo de consultoria estatística da sua universidade local, se você tiver um.

Boa sorte!

Aqui está uma explicação da saída do MANOVA, de um site muito bom sobre estatísticas e no SPSS:

Saída com explicação:http://faculty.chass.ncsu.edu/garson/PA765/manospss.htm

Como e por que fazer MANOVA ou GLM multivariado:(mesmo caminho acima, mas terminando em '/manova.htm')

Escrever software do zero para calcular esses resultados seria demorado e difícil;há muitos problemas numéricos e inversões de matrizes para fazer.

Como Henry disse, use scripts Python ou R.Eu sugiro trabalhar com alguém que conheça SPSS se estiver fazendo scripts.Além disso, o próprio SPSS é capaz de exportar as tabelas de saída para arquivos usando algo chamado OMS.Um script dentro do SPSS pode fazer isso.

Descubra quem em seu grupo de pesquisa conhece SPSS e trabalhe com eles.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow