Comment calculer ces statistiques ?

https://stackoverflow.com/questions/1679

08-06-2019
|

Question

J'écris une application pour faciliter certaines recherches, et cela implique en partie d'effectuer des calculs statistiques.À l'heure actuelle, les chercheurs utilisent un programme appelé SPSS.Une partie du résultat qui les intéresse ressemble à ceci :

[Part of the SPSS output

En réalité, ils ne se soucient que du F et Sig. valeurs.Mon problème est que je n'ai aucune expérience en statistiques et je n'arrive pas à comprendre comment s'appellent les tests ni comment les calculer.

je pensais que le F la valeur pourrait être le résultat de la Test F, mais après avoir suivi les étapes indiquées sur Wikipédia, j'ai obtenu un résultat différent de celui SPSS donne.

La solution

Ce site Web pourrait vous aider un peu plus.Aussi celui-ci.

Je travaille à partir d'un souvenir assez rouillé d'un cours de statistiques, mais rien ne se passe ici :

Lorsque vous effectuez une analyse de variance (ANOVA), vous calculez en fait la statistique F comme le rapport des variances quadratiques moyennes « entre les groupes » et des variances quadratiques moyennes « au sein des groupes ».Le deuxième lien ci-dessus semble plutôt bon pour ce calcul.

Cela permet à la statistique F de mesurer exactement la puissance de votre modèle, car la variance « entre les groupes » est le pouvoir explicatif et la variance « au sein des groupes » est une erreur aléatoire.Un F élevé implique un modèle hautement significatif.

Comme dans de nombreuses opérations statistiques, vous rétro-déterminez Sig.en utilisant la statistique F.C'est ici que vos informations Wikipédia s'avèrent légèrement utiles.Ce que vous voulez faire, c'est - en utilisant les degrés de liberté qui vous sont donnés par SPSS - trouver la valeur P appropriée à laquelle un Tableau F vous donnera la statistique F que vous avez calculée.La valeur P où cela se produit [F(table) = F(calculé)] est la signification.

Conceptuellement, une valeur de signification inférieure montre une très forte capacité à rejeter l'hypothèse nulle (ce qui signifie, à ces fins, déterminer que votre modèle a un pouvoir explicatif).

Désolé pour tous les mathématiciens si tout cela est faux.Je reviendrai pour apporter des modifications !!!

Bonne chance à toi.Les statistiques sont amusantes, mais peut-être pas cette partie.=)

Autres conseils

Je suppose d'après votre question que vos collègues de recherche souhaitent automatiser le processus par lequel certaines analyses statistiques sont effectuées (c'est-à-dire qu'ils souhaitent traiter par lots des ensembles de données).Vous avez deux options :

1) SPSS est désormais scriptable via python (à partir de la version 15) - allez sur spss.com et recherchez python.Vous pouvez écrire des scripts Python pour automatiser les analyses de données et extraire les valeurs clés des tableaux croisés dynamiques, puis traiter les réponses comme vous le souhaitez.Cela a le mérite de permettre une comparaison exacte entre les résultats de votre script python et les efforts calculés manuellement dans SPSS de vos collaborateurs.Ainsi, vous n'aurez pas besoin de vraiment connaître de statistiques pour effectuer ce travail (ce qui est un avantage clé)

2) Vous pouvez le faire dans R, un environnement de statistiques gratuit, qui pourrait probablement être scripté.Cela présente l'inconvénient que vous devrez apprendre des statistiques pour vous assurer que vous le faites correctement.

Les statistiques sont difficiles :-).Après un an de lecture et de relecture de livres et d'articles, je ne peux que dire avec confiance que j'en comprends les bases.

Vous souhaiterez peut-être étudier les bibliothèques prêtes à l'emploi pour le langage de programmation que vous utilisez, car elles constituent de nombreux pièges en mathématiques en général et en statistiques en particulier (les erreurs d'arrondi étant un exemple évident).

A titre d'exemple, vous pourriez jeter un oeil à le projet R, qui est à la fois un environnement interactif et une bibliothèque que vous pouvez utiliser à partir de votre code C++, distribué sous GPL (ie si vous l'utilisez uniquement en interne et publiez uniquement les résultats, vous n'avez pas besoin d'ouvrir votre code).

En bref:ne le faites pas à la main, liez/utilisez un logiciel existant.Et la réponse de sain_grocen est incorrecte.:(

Ce sont tous des tests de signification des estimations de paramètres qui sont généralement utilisés dans les régressions multiples à réponse multivariée.Ce ne seraient pas des choses simples à réaliser en dehors d’un environnement de programmation statistique.Je suggérerais soit d'obtenir le résultat d'un programme statistique préexistant, soit d'en utiliser un auquel vous pouvez créer un lien et utiliser ce code.

J'ai peur que la première réponse (celle de sain_grocen) vous conduise sur la mauvaise voie.Son explication concerne probablement un cas particulier de ce à quoi vous êtes réellement confronté.L'anova expliquée dans ses liens concerne une réponse variable unique, dans une conception équilibrée.Ce ne sont pas les statistiques F que vous voyez.Les noms dans votre sortie (Pillai's Trace, Hotelling's Trace,...) font partie des versions multivariées disponibles.Ils ont des distributions F sous certaines hypothèses.Je ne peux pas expliquer un manuel pour une valeur de matériel ici, je vous conseille de commencer par examiner "Analyse statistique multivariée appliquée" de Johnson et Wichern

Pouvez-vous expliquer davantage pourquoi SPSS lui-même n'est pas une bonne solution au problème ?Est-ce qu'il génère des tableaux croisés dynamiques en sortie difficiles à manipuler ?Est-ce le coût du programme ?

Les statistiques F peuvent résulter d’un certain nombre de tests particuliers.Le F n'est qu'une distribution (en gros :une description des "fréquences" de groupes de valeurs), comme une normale (gaussienne) ou uniforme.En général, ils proviennent de rapports de variances.Avis:de nombreux statisticiens (moi y compris) trouvent les tests basés sur F instables (jargon :non-robuste).

Les statistiques de sortie particulières (trace de Pillai, etc.) suggèrent que l'analyse originale est un exemple MANOVA, qui, comme le décrivent d'autres affiches, est une procédure compliquée et difficile à mettre en œuvre.

Je suppose aussi que, basé sur MANOVA et l'utilisation de SPSS, il s'agit d'un projet de psychologie ou de sociologie...sinon, merci de m'éclairer.Il se pourrait que d’autres modèles plus simples soient en réalité plus faciles à comprendre et plus reproductibles.Consultez votre groupe de conseil en statistiques universitaire local, si vous en avez un.

Bonne chance!

Voici une explication de la sortie MANOVA, à partir d'un très bon site sur les statistiques et sur SPSS :

Sortie avec explication :http://faculty.chass.ncsu.edu/garson/PA765/manospss.htm

Comment et pourquoi faire de la MANOVA ou du GLM multivarié :(même chemin que ci-dessus, mais se terminant par '/manova.htm')

Écrire un logiciel à partir de zéro pour calculer ces résultats serait à la fois long et difficile ;il y a beaucoup de problèmes numériques et d'inversions matricielles à faire.

Comme Henry l'a dit, utilisez des scripts Python ou R.Je suggérerais de travailler avec quelqu'un qui connaît SPSS en matière de script.De plus, SPSS lui-même est capable d'exporter les tableaux de sortie vers des fichiers en utilisant quelque chose appelé OMS.Un script dans SPSS peut le faire.

Découvrez qui dans votre groupe de recherche connaît SPSS et travaillez avec eux.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow