Question

J'analyserai grande quantité de trafic réseau peu les données relatives, et sera pré-traiter les données afin de les analyser. J'ai trouvé que R et SPSS sont parmi les outils les plus populaires pour l'analyse statistique. Je vais également générer beaucoup de graphiques et de tableaux. Par conséquent, je me demandais quelle est la différence fondamentale entre ces deux logiciels.

Je ne demande pas quel est le meilleur, mais je voulais juste savoir quelles sont les différences en termes de flux de travail entre les deux (outre le fait que SPSS a une interface graphique). Je vais travailler avec la plupart des scripts dans les deux cas, de toute façon, donc je voulais savoir sur les autres différences.

Était-ce utile?

La solution

Je travaille dans une entreprise qui utilise SPSS pour la majorité de notre analyse des données, et pour diverses raisons - j'ai commencé à essayer d'utiliser R pour de plus en plus de ma propre analyse. Certaines des plus grandes différences que j'ai couru en comprennent:

  1. Sortie des tables - SPSS a des tables de base, tableaux généraux, tableaux personnalisés, etc qui sont toutes les sorties que spectateur de données ou tout ce qu'ils nifty appellent. Ceux-ci peuvent être transportés relativement facilement à des documents Word ou des feuilles Excel pour une analyse plus poussée / présentation. La fonction équivalente en R implique l'apprentissage LaTex ou en utilisant un odfWeave ou Lyx ou quelque chose de cette nature.
  2. étiquetage des données -> SPSS fait un très bon travail avec les étiquettes de variables et les étiquettes de valeur. Je ne l'ai pas trouvé une solution robuste R pour accomplir cette même tâche.
  3. Vous mentionnez que vous allez script le plus de votre travail, et personnellement je trouve la syntaxe de script de SPSS absolument horrible, au point que je me suis arrêté de travailler avec SPSS chaque fois que possible. syntaxe R semble beaucoup plus logique et obéit aux normes de programmation de plus près et il y a une communauté très active à compter sur si vous rencontrez des problèmes (par exemple SO). Je n'ai pas trouvé une bonne communauté de SPSS pour poser des questions quand je rencontre des problèmes.

D'autres ont souligné quelques-unes des grandes différences en termes de coût et la fonctionnalité des programmes. Si vous devez collaborer avec les autres, leur niveau de confort avec SPSS ou R devrait jouer un facteur que vous ne voulez pas être le seul dans votre groupe qui peut travailler ou modifier un script que vous avez écrit dans l'avenir.

Si vous allez apprendre R, ce post sur le site d'échange de statistiques a un tas de grandes ressources pour l'apprentissage R: https://stats.stackexchange.com/questions/138/resources-for-learning-r

Autres conseils

Voici quelque chose que j'affecté à la liste de diffusion R-aide un certain temps, mais je pense qu'il donne un bon aperçu de haut niveau de la différence générale en R et SPSS:

  

Quand on parle de l'utilisateur Aimabilité   de logiciels J'aime le   analogie des voitures par rapport à des bus:

     

sont très faciles Busses à utiliser, il vous suffit   besoin de savoir quel bus pour se rendre sur,   où trouver sur, et où descendre   (Et vous devez payer votre billet). Voitures   d'autre part, exigent beaucoup plus   travail, vous devez avoir un certain type de   carte ou directions (même si la carte est   dans votre tête), vous devez mettre de l'essence dans   de temps en temps, vous devez savoir   les règles de la route (ont un certain type   du permis de conduire). Le gros avantage   de la voiture est qu'il peut vous prendre   tas d'endroits que le bus ne fonctionne pas   aller et il est plus rapide pour certains voyages   cela nécessiterait entre transfering   bus.

     

L'utilisation de ce programme par analogie comme SPSS   des bus, facile à utiliser pour la   les choses standard, mais très frustrant   si vous voulez faire quelque chose qui est   pas déjà préprogrammée.

     

R est un SUV 4 roues motrices (bien   respectueux de l'environnement) avec un vélo   sur le dos, un kayak sur le dessus, bon   chaussures de marche et de course dans la   siège pasenger, et l'alpinisme   et spéléologie engrenage dans le dos.

     

R peut vous emmener où vous voulez aller   si vous prenez le temps de Leard comment utiliser   l'équipement, mais qui va   prendre plus de temps que d'apprendre où le   arrêts de bus sont dans SPSS.

Il y a pour R GUIs qui le rendent un peu plus facile à utiliser, mais limitent également la fonctionnalité qui peut être utilisé facilement. SPSS ne le script qui prend au-delà d'être un simple bus, mais le phylosophie général du peuple de SPSS vers l'interface graphique plutôt que les scripts.

Le flux de travail initial de SPSS implique de justifier l'écriture d'un gros chèque. R est disponible gratuitement.

R a une seule langue pour « script », mais ne pense pas comme ça, R est vraiment un langage de programmation avec une grande manipulation de données, les statistiques et la fonctionnalité graphique intégrée. SPSS a « syntaxe », Scripts 'et est également scriptable en Python.

Un autre trop grave est que SPSS comprime les données dans une structure de table de spreadsheety. Faire face à d'autres structures de données est probablement très difficile, mais vient naturellement à R. Je ne sais pas où commencer le traitement des données de type graphique de réseau dans SPSS, mais il y a un paquet à faire pour R.

Aussi avec R, vous pouvez intégrer votre flux de travail avec vos rapports en utilisant Sweave - vous écrivez un document avec des bits intégrés de code R qui génèrent des parcelles ou des tables, exécutez le fichier dans le système et sort du rapport en format PDF. Idéal pour quand vous voulez faire un rapport hebdomadaire, ou vous faites un corps de travail, puis le patron vous donne un ensemble de données mises à jour. Re-run, relisez, son fait.

Mais vous savez, votre appel ...

Eh bien, êtes-vous un programmeur décent? Si vous êtes, alors il vaut la peine d'apprendre R. Vous pouvez faire plus avec vos données, tant en termes de manipulation et de modélisation statistique, que vous pouvez avec SPSS, et vos graphiques sera probablement mieux aussi. D'autre part, si vous ne l'avez jamais vraiment programmé, ou trouver l'idée de passer plusieurs mois devenir un programmeur intimidant, vous aurez probablement plus de valeur de SPSS. Le niveau de choses que vous pouvez faire avec R sans plonger dans sa puissance comme un langage de programmation à part entière ne justifie probablement pas l'effort.

Il y a une autre option - collaborer. Connaissez-vous quelqu'un vous pouvez travailler avec votre projet (vous ne dites pas que ce soit universitaire ou de l'industrie, mais de toute façon ...), qui connaît bien R?

Il y a une comparaison intéressante (et raisonnablement équitable) entre un certain nombre d'outils stats ici

http://anyall.org/blog/2009/02/comparison-of-data-analysis-packages-r-matlab-scipy-excel-sas-spss-stata/

Je travaille à la fois dans une entreprise et peut dire ce qui suit:

  • Si vous avez une grande équipe de personnes différentes (pas tous les scientifiques de données), SPSS est utile car il est évident (relativement) à comprendre. Par exemple, si les utilisateurs vont exécuter un modèle pour obtenir une sortie (estimations de ventes, etc.), SPSS est clair et facile à utiliser.

Cela dit, je trouve R mieux dans presque tous les sens:

  • R est plus rapide (bien que, parfois discutable)
  • Comme indiqué précédemment, la syntaxe de SPSS est aweful (Je ne peux insister assez sur ce point). D'autre part, R peut être pénible à apprendre, mais il y a des tonnes de ressources en ligne et à la fin il paie beaucoup plus en raison des différentes choses que vous pouvez faire.
  • Encore une fois, comme tout le monde dit, le ciel est la limite avec R. Des tonnes de colis, des ressources et plus important encore: indepedence faire comme vous s'il vous plaît. Dans mon organisation, nous avons des fonctions de très haut niveau qui obtiennent beaucoup fait. La partie difficile est de les créer une fois, mais ils effectuent des tâches complexes que SPSS serait emmêlés dans une toile sans fin de toile. Cela est particulièrement vrai pour des choses comme des boucles.

Il est souvent négligé, mais R a aussi beaucoup de fonctionnalités de coopérer entre les équipes (intégration github avec rstudio, et la construction de l'emballage facile avec devtools).

En fait, si tout le monde dans votre organisation sait R, tout ce que vous avez besoin est de maintenir un forfait de base sur GitHub pour tout part. Bien sûr, cela n'est pas la norme, ce qui est la raison pour laquelle je pense que SPSS, bien que le pire produit, a encore un marché.

Je dispose pas de données pour cela, mais de mon expérience, je peux vous dire une chose:

SPSS est beaucoup plus lent que R . (Et avec beaucoup, je veux dire vraiment beaucoup)

L'ampleur de la différence est probablement aussi grand que celui entre C ++ et R .

Par exemple, je ne jamais avoir à attendre plus longtemps que quelques secondes dans l'affaire R. En utilisant SPSS et des données similaires, j'ai eu des calculs qui ont plus de 10 minutes.

Une note sans rapport: A mes yeux, dans la discussion récente sur la vitesse de R, ce point a été en quelque sorte négligé (à savoir, la comparaison avec SPSS). De plus, je suis étonné comment cette discussion surgit pendant un certain temps et a disparu en silence à nouveau.

Il y a quelques réponses ci-dessus, mais je vais essayer de fournir mes 2 cents. Mon ministère repose entièrement sur SPSS pour notre travail, mais ces derniers mois, je l'ai fait un effort conscient pour apprendre R; en partie, pour certaines des raisons ci-dessus détaillés (vitesse, de vastes structures de données, les paquets disponibles, etc.)

Cela dit, voici quelques choses que j'ai ramassées le long du chemin:

  1. Sauf si vous avez une certaine expérience de programmation, je pense que la création de tableaux sommaires dans CTABLES détruit toute option disponible Date R., je suis paquet pas au courant qui peut se répliquer ce qui peut être créé en utilisant les tableaux personnalisés.

  2. SPSS ne semble être plus lent lorsque les scripts, et oui, la syntaxe SPSS est terrible. Cela dit, j'ai trouvé que scipts dans SPSS peuvent toujours être améliorées, mais en utilisant la parcimonie commande Executer.

  3. SPSS et R peuvent interagir avec l'autre, mais il semble que c'est une façon (uniquement lors de l'utilisation à l'intérieur R de SPSS, et non l'inverse). Cela dit, je l'ai trouvé cela peu utile autre que si je veux utiliser ggplot2 ou pour d'autres techniques de gestion des données avancées. (Je dédaigne SPSS macros).

  4. Je pense depuis longtemps que « rapports » travail créé dans SPSS est bien inférieur à d'autres solutions. Comme mentionné ci-dessus, si vous pouvez exploiter LaTex et Sweave, vous serez très heureux avec vos flux de travail efficaces.

  5. J'ai été en mesure de faire une analyse avancée en tirant parti de l'OMS dans SPSS. Presque tout peut être acheminé vers un nouvel ensemble de données, mais je l'ai trouvé que la plupart des utilisateurs de SPSS n'utilisent pas cette fonctionnalité. En outre, quand on regarde les exemples dans R, il se sent juste "plus facile" que l'utilisation de l'OMS.

En bref, je me retrouve à l'aide de SPSS quand je ne peux pas comprendre rapidement dans R, mais j'ai sincèrement l'intention de sortir de SPSS et en utilisant R entièrement à un moment donné dans un proche avenir.

SPSS fournit une interface graphique pour intégrer facilement des programmes de R existants ou développer de nouveaux. Pour plus d'informations, voir le SPSS communautaire sur les travaux de développement d'IBM.

@Henrik, je l'ai fait la même tâche que vous avez mentionné ( C ++ et R ) sur SPSS. Et il est apparu que SPSS est plus rapide par rapport à R sur celui-ci. Dans mon cas, SPSS est aprox. 7 fois plus rapide. Je suis surpris à ce sujet.

Voici un code je dans SPSS.

data list free
 /x (f8.3).
begin data
1
end data.

comp n = 1e6.

comp t1 = $time.

loop #rep = 1 to 10.
comp x = 1.
loop #i=1 to n.
comp x = 1/(1+x).
end loop.
end loop.

comp t2 = $time.

comp elipsed = t2 - t1.

form elipsed (f8.2).

exe.

Regardez cette vidéo pourquoi est bon de combiner SPSS et R ...

Lien

http://bluemixanalytics.wordpress.com/2014/08/29/7-good-reasons-to-combine-ibm-spss-analytics-and-r/

Si vous avez une copie compatible R installé, vous pouvez connecter à partir d'IBM SPSS Modeler et réaliser la construction de modèles et la notation modèle en utilisant des algorithmes de recherche personnalisés qui peuvent être déployés dans IBM SPSS Modeler. Vous devez également avoir une copie d'IBM SPSS Modeler - Essentials pour R installé. IBM SPSS Modeler -. Essentials pour R fournit des outils dont vous avez besoin pour commencer à développer des applications de R personnalisées pour une utilisation avec IBM SPSS Modeler

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top