Pregunta

Me gustaría que raspar la lista de discusión de un grupo de google.Es un multi-página de lista y yo podría tener a este nuevo modo de secuencias de comandos suena como el camino a seguir.

Dado que este es un grupo privado, necesito acceder a mi cuenta de google primero.Por desgracia no he podido iniciar la sesión utilizando wget o ruby Net::HTTP.Sorprendentemente grupos de google no es accesible con la Cliente de inicio de Sesión de la interfaz de, por lo que todos los ejemplos de código son inútiles.

Mi script de ruby está incrustado en el final del post.La respuesta a la autenticación de la consulta es de 200-OK pero no las cookies en los encabezados de respuesta y el cuerpo contiene el mensaje de "cookies de Su navegador funcionalidad está desactivada.Por favor encenderlo."

Tengo la misma salida con wget.Ver el script de bash que al final de este mensaje.

No sé cómo solucionar esto.me estoy perdiendo algo?Alguna idea?

Gracias de antemano.

Juan

Aquí está el script de ruby:

# a ruby script
require 'net/https'

http = Net::HTTP.new('www.google.com', 443)
http.use_ssl = true
path = '/accounts/ServiceLoginAuth'


email='john@gmail.com'
password='topsecret'

# form inputs from the login page
data = "Email=#{email}&Passwd=#{password}&dsh=7379491738180116079&GALX=irvvmW0Z-zI"
headers =  { 'Content-Type' => 'application/x-www-form-urlencoded',
'user-agent' => "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.2 (KHTML, like Gecko) Chrome/6.0"}

# Post the request and print out the response to retrieve our authentication token
resp, data = http.post(path, data, headers)
puts resp
resp.each {|h, v| puts h+'='+v}

#warning: peer certificate won't be verified in this SSL session

Aquí está el script de bash:

# A bash script for wget
CMD=""
CMD="$CMD --keep-session-cookies --save-cookies cookies.tmp"
CMD="$CMD --no-check-certificate"
CMD="$CMD --post-data='Email=john@gmail.com&Passwd=topsecret&dsh=-8408553335275857936&GALX=irvvmW0Z-zI'"
CMD="$CMD --user-agent='Mozilla'"
CMD="$CMD https://www.google.com/accounts/ServiceLoginAuth"
echo $CMD
wget $CMD
wget --load-cookies="cookies.tmp" http://groups.google.com/group/mygroup/topics?tsc=2
¿Fue útil?

Solución

¿Has probado con la mecanización de la para ruby?
La mecanización de la biblioteca se utiliza para la automatización de la interacción con el sitio web;usted puede iniciar sesión en google y navegar por sus privada de un grupo de google de salvar lo que usted necesita.

Aquí un ejemplo donde la mecanización es utilizado para gmail raspado.

Otros consejos

Hice esto con anterioridad por el registro en forma manual con Firefox y, a continuación, utilizar Chickenfoot para automatizar la navegación y raspado.

Encuentra este PHP Solución a raspado privados de Grupos de Google.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top