Pregunta

como un ejercicio de RSS me gustaría ser capaz de buscar a través de casi todas las discusiones Unix en este grupo.

comp.unix.shell

Sé lo suficiente Python y entiendo RSS básica, pero estoy atascado en ... ¿cómo puedo agarrar todos los mensajes entre las fechas particulares, o por lo menos todos los mensajes entre enésima reciente y Mes recientes?

descripciones de alto nivel, pseudo-código es bienvenido.

Gracias!

EDIT:

Me gustaría ser capaz de volver más de 100 mensajes, pero no agarrar al igual que el análisis de 10 mensajes a la vez como el uso de esta URL:

http://groups.google .com / grupo / comp.unix.shell / temas? hl = es & start = 2000 & SA = N

Tiene que haber una mejor manera.

¿Fue útil?

Solución

Como se ha mencionado Randal, esto viola la TOS de Google - sin embargo, como una hipotética o para su uso en otro sitio sin estas restricciones se podía bastante fácilmente plataforma algo con urllib y BeautifulSoup . Utilice urllib para abrir la página y luego usar BeautifulSoup para agarrar todos los temas de hilo (y enlaces si desea rastrear más profundo). A continuación, puede mediante programación encontrar el enlace a la página siguiente de resultados y luego hacer otra urllib para ir a la página. 2 - luego repetir el proceso

En este punto, usted debe tener todos los datos en bruto, entonces es sólo una cuestión de la manipulación de los datos y la implementación de la funcionalidad de búsqueda.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top