Pregunta

Yo estaré analizando gran cantidad de redes, datos de tráfico en breve, y sin pre-procesar los datos con el fin de analizarlo. He encontrado que R y SPSS son algunas de las herramientas más populares para el análisis estadístico. También voy a estar generando un buen montón de gráficos y tablas. Por lo tanto, me preguntaba cuál es la diferencia básica entre estos dos programas.

No estoy pidiendo cuál es mejor, pero sólo quería saber cuáles son la diferencia en términos de flujo de trabajo entre los dos (además del hecho de que SPSS tiene una interfaz gráfica de usuario). Voy a estar trabajando sobre todo con scripts en cualquiera de los casos de todos modos, así que quería saber acerca de las otras diferencias.

¿Fue útil?

Solución

Yo trabajo en una empresa que utiliza SPSS para la mayor parte de nuestro análisis de datos, y para una variedad de razones - He empezado a tratar de utilizar R para obtener más y más de mi propio análisis. Algunas de las diferencias más grandes se han topado incluyen:

  1. Salida de mesas - SPSS cuenta con mesas, mesas básicas generales, cuadros personalizados, etc que son toda la salida a ese espectador de datos ingeniosa o como lo llamen. Estos pueden relativamente fácilmente ser transportados a documentos de Word o en hojas de Excel para su posterior análisis / presentación. La función equivalente en I implica aprender LaTex o utilizando un odfWeave o Lyx o algo por el estilo.
  2. Etiquetado de datos -> SPSS hace un trabajo bastante bueno con las etiquetas de variable y etiquetas de valor. No he encontrado una solución robusta para R para lograr esto misma tarea.
  3. Usted menciona que usted va a ser secuencias de comandos de la mayor parte de su trabajo, y personalmente encontrar la sintaxis de secuencias de comandos de SPSS absolutamente terrible, hasta el punto de que he dejado de trabajar con SPSS siempre que sea posible. R sintaxis parece mucho más lógico y sigue los estándares de programación más de cerca y hay una comunidad muy activa que confiar en caso de que tenga problemas (por ejemplo SO). No he encontrado una buena comunidad de SPSS para hacer preguntas de cuando me encuentro con problemas.

Otros han señalado algunas de las grandes diferencias en términos de coste y funcionalidad de los programas. Si usted tiene que colaborar con otros, su nivel de comodidad con SPSS o R debe jugar un factor, ya que no quiere ser el único de su grupo que puede trabajar en o editar un guión que escribió en el futuro.

Si usted va a estar aprendiendo R, este post en el sitio web de intercambio de estadísticas tiene un montón de grandes recursos para aprender R: https://stats.stackexchange.com/questions/138/resources-for-learning-r

Otros consejos

Aquí hay algo que he publicado al R-ayuda lista de correo hace un tiempo, pero creo que da una buena visión general de alto nivel de la diferencia general de R y SPSS:

Cuando se habla de la amabilidad de usuario de programas informáticos me gusta el analogía de coches frente a los buses:

Los autobuses son muy fáciles de usar, sólo necesitará saber qué bus de conseguir en, donde conseguir en, y donde bajar (Y que necesita para pagar su tarifa). Coches por el contrario requiere mucho más trabajo, es necesario tener algún tipo de mapa o direcciones (incluso si el mapa es en su cabeza), es necesario poner el gas en de vez en cuando, lo que necesita saber las reglas de la carretera (tienen algún tipo de la licencia de conducir). La gran ventaja del coche es que se puede tomar un montón de lugares que el autobús no lo hace ir y es más rápido para algunos viajes eso requeriría traslación entre buses.

El uso de esta analogía programas como SPSS son los autobuses, fácil de usar para el cosas normales, pero muy frustrante si quieres hacer algo que es no se ha programado previamente.

R es una unidad de 4 ruedas SUV (aunque el medio ambiente) con una bicicleta en la parte posterior, un kayak en la parte superior, buena caminar y zapatos para correr en el pasenger asiento, y el montañismo y espeleología de engranaje en la parte posterior.

R se puede llevar a cualquier lugar que usted desea ir si se toma el tiempo para Leard cómo utilizar el equipo, pero que se va a tomar más tiempo que el aprendizaje en el que el paradas de autobús están en SPSS.

Hay interfaces gráficas de usuario para R que lo hacen un poco más fácil de usar, sino que también limitan la funcionalidad que se puede utilizar tan fácilmente. SPSS tiene secuencias de comandos que lo lleva más allá de ser un mero autobús, pero la filosofía general de las personas SPSS novillos hacia la interfaz gráfica de usuario en lugar de las secuencias de comandos.

El flujo de trabajo inicial para justificar SPSS implica escribir un cheque grande y gordo. R está libremente disponible.

R tiene un único idioma para 'script', pero no creo que de esa manera, R es realmente un lenguaje de programación con gran manipulación de datos, estadísticas, gráficos y funcionalidad incorporada. SPSS tiene 'sintaxis', 'Secuencias de comandos 'y también es scripts en Python.

Otro biggie es que SPSS aprieta sus datos en una estructura de tabla spreadsheety. Tratar con otras estructuras de datos es probablemente muy difícil, pero es algo natural para R. Yo no sabría por dónde empezar a gestionar los datos de tipo gráfico de la red en SPSS, pero si hay un paquete para que lo haga por R.

También con R Puede integrar su flujo de trabajo con sus informes mediante el uso de Sweave - se escribe un documento con los bits incrustados de código R que generan diagramas o tablas, ejecute el archivo a través del sistema y fuera viene el informe como un archivo PDF. Ideal para cuando usted quiere hacer un informe semanal, o haces un cuerpo de trabajo y luego el jefe le da un conjunto de datos actualizada. Vuelva a ejecutar, leerlo otra vez, se hace.

Pero usted sabe, su llamada ...

Bueno, ¿es usted un programador decente? Si es así, entonces vale la pena aprender R. Puede hacer más con sus datos, tanto en términos de manipulación y modelado estadístico, lo que puede con SPSS, y sus gráficos probablemente será mejor también. Por otro lado, si usted nunca ha programado realmente antes, o encontrar la idea de pasar varios meses convertirse en un programador intimidante, probablemente obtendrá más valor de SPSS. El nivel de cosas que se puede hacer con R sin bucear en su poder como un lenguaje de programación de pleno derecho, probablemente no justifica el esfuerzo.

Hay otra opción - colaborar. ¿Usted conoce a alguien que puede trabajar con en su proyecto (no se dice si es académico o industria, pero de cualquier manera ...), que conoce bien R?

Hay una interesante (y razonablemente justo) comparación entre una serie de herramientas estadísticas aquí

http://anyall.org/blog/2009/02/comparison-of-data-analysis-packages-r-matlab-scipy-excel-sas-spss-stata/

Yo trabajo con ambos en una empresa y puedo decir lo siguiente:

  • Si usted tiene un gran equipo de personas diferentes (no todos los científicos de datos), SPSS es útil porque es simple (relativamente) de entender. Por ejemplo, si los usuarios van a ejecutar un modelo para obtener una salida (estimaciones de ventas, etc.), SPSS es clara y fácil de usar.

Dicho esto, encuentro R mejor en casi todos los demás sentidos:

  • R es más rápido (aunque, a veces discutible)
  • Como se dijo anteriormente, la sintaxis de SPSS es horrible (no puedo enfatizar esto lo suficiente). Por otra parte, R puede ser doloroso para aprender, pero hay un montón de recursos en línea y al final se paga mucho más debido a las diferentes cosas que puede hacer.
  • Una vez más, como todo el mundo dice, el cielo es el límite con R. Las toneladas de paquetes, los recursos y lo más importante: indepedence para hacer lo que le plazca. En mi organización tenemos algunas funciones muy alto nivel que reciben una gran cantidad hecho. La parte difícil es la creación de una vez, pero luego realizar tareas que sería SPSS enredarse en una tela sin fin de tela complicado. Esto es especialmente cierto para las cosas como bucles.

A menudo se pasa por alto, pero R también tiene un montón de características para cooperar entre los equipos (integración con github rstudio, y fácil la construcción de paquetes con devtools).

En realidad, si todos en su organización sabe R, todo lo que necesita es mantener un paquete básico en github compartir todo. Esto por supuesto no es la norma, que es por eso que creo SPSS, aunque un peor producto, todavía tiene un mercado.

No tiene datos para él, pero desde mi experiencia te puedo decir una cosa:

SPSS es mucho más lento que R . (Y con un montón, me refiero a un montón)

La magnitud de la diferencia es probablemente tan grande como la que existe entre C ++ y R .

Por ejemplo, nunca tendrá que esperar más de un par de segundos en R. Utilizando datos SPSS y similares, que tenía cálculos que tuvieron más de 10 minutos.

Como nota relacionada: En mis ojos, en el reciente debate sobre la velocidad de R, este punto se pasa por alto alguna manera (es decir, la comparación con SPSS). Por otra parte, me sorprende cómo esta discusión apareció durante un tiempo y en silencio desapareció de nuevo.

Hay algunos grandes respuestas anteriores, pero voy a tratar de proporcionar mis 2 centavos. Mi departamento se basa por completo en SPSS para nuestro trabajo, pero en los últimos meses, he estado haciendo un esfuerzo consciente para aprender R; en parte, para algunas de las razones detalladas que excedan (velocidad, grandes estructuras de datos, los paquetes disponibles, etc.)

Dicho esto, aquí hay algunas cosas que he recogido a lo largo del camino:

  1. A menos que tenga un poco de programación experiencia, creo que la creación de tablas de resumen en CTABLES destruye cualquier opción disponible en la fecha R. Para, estoy paquete sin saber que se puede replicar lo que puede ser creado usando tablas personalizadas.

  2. SPSS parece ser más lenta cuando secuencias de comandos, y sí, la sintaxis de SPSS es terrible. Dicho esto, he encontrado que scipts en SPSS siempre se puede mejorar, pero utilizando el comando EXECUTE con moderación.

  3. SPSS y R pueden interactuar unos con otros, aunque parece que es una forma (sólo cuando se utiliza R dentro de SPSS, no al revés). Dicho esto, he encontrado que esto es de poca utilidad distinta si quiero usar ggplot2 o para algunas otras técnicas avanzadas de gestión de datos. (Desprecio SPSS macros).

  4. he sentido desde hace tiempo que "informes" obra creada en SPSS es muy inferior al de otras soluciones. Como se mencionó anteriormente, si se puede aprovechar de látex y Sweave, que será muy feliz con sus flujos de trabajo eficientes.

  5. he sido capaz de hacer un análisis avanzado mediante el aprovechamiento de la OMS en SPSS. Casi todo lo que se puede dirigir a un nuevo conjunto de datos, pero he encontrado que la mayoría de los usuarios de SPSS no utilizan esta funcionalidad. Además, cuando se mira en ejemplos en R, sólo se siente "más fácil" que el uso de OMS.

En resumen, me encuentro con el programa SPSS cuando no puedo averiguarlo rápidamente en R, pero sinceramente tienen toda la intención de alejarse de SPSS y R utilizando por completo en algún momento en el futuro cercano.

SPSS proporciona una interfaz gráfica de usuario para integrar fácilmente los programas de I existentes o desarrollar otros nuevos. Para obtener más información, consulte la Comunidad de SPSS de IBM Developer Works.

@Henrik, me hizo la misma tarea que usted ha mencionado ( C ++ y R ) en SPSS. Y resultó que SPSS es más rápido en comparación con R en este caso. En mi caso SPSS es aprox. 7 veces más rápido. Estoy sorprendido de ello.

Aquí es un código que utilicé en SPSS.

data list free
 /x (f8.3).
begin data
1
end data.

comp n = 1e6.

comp t1 = $time.

loop #rep = 1 to 10.
comp x = 1.
loop #i=1 to n.
comp x = 1/(1+x).
end loop.
end loop.

comp t2 = $time.

comp elipsed = t2 - t1.

form elipsed (f8.2).

exe.

Vea este video por qué es bueno combinar SPSS y R ...

Enlace

http://bluemixanalytics.wordpress.com/2014/08/29/7-good-reasons-to-combine-ibm-spss-analytics-and-r/

Si usted tiene una copia compatible de R instalado, puede conectarse a él desde IBM SPSS Modeler y llevar a cabo la construcción del modelo y el modelo de puntuación utilizando algoritmos personalizados R que se pueden desplegar en IBM SPSS Modeler. También debe tener una copia de IBM SPSS Modeler - Essentials for R instalado. IBM SPSS Modeler -. Essentials for R te proporciona las herramientas que necesita para empezar a desarrollar aplicaciones personalizadas de R para su uso con IBM SPSS Modeler

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top