Domanda

come un esercizio di RSS Vorrei essere in grado di navigare attraverso tutte le discussioni praticamente Unix su questo gruppo.

comp.unix.shell

Lo so abbastanza Python e capisco RSS di base, ma io sono bloccato su ... come faccio a prendere tutti i messaggi tra date particolari, o almeno tutti i messaggi tra Ennesimo recente e Mth recenti?

descrizioni di alto livello, pseudo-codice è benvenuto.

Grazie!

EDIT:

Mi piacerebbe essere in grado di tornare indietro più di 100 messaggi, ma non afferrando come l'analisi di 10 messaggi in un momento come l'utilizzo di questo URL:

http://groups.google .com / gruppo / comp.unix.shell / argomenti? hl = it & start = 2000 & sa = N

Ci deve essere un modo migliore.

È stato utile?

Soluzione

Come accennato Randal, questo viola ToS di Google - tuttavia, come un ipotetico o per l'uso su un altro sito senza queste restrizioni si potrebbe abbastanza facilmente mettere su qualcosa con urllib e BeautifulSoup . Utilizzare urllib per aprire la pagina e quindi utilizzare BeautifulSoup per afferrare tutti gli argomenti della discussione (e link, se si desidera eseguire la scansione più profonda). È quindi possibile a livello di codice trovare il link alla pagina successiva dei risultati e poi fare un altro urllib per andare alla pagina 2 -. Quindi ripetere il processo

A questo punto si dovrebbe avere tutti i dati grezzi, allora è solo una questione di manipolare i dati e l'implementazione la funzionalità di ricerca.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top