In che modo Google Reader ottiene tutti gli elementi in un feed RSS?
-
03-07-2019 - |
Domanda
Il feed RSS di Slashdot è http://rss.slashdot.org/Slashdot/slashdot . Se scarico direttamente il file XML, ricevo solo alcuni dei post di oggi. Tuttavia, se mi iscrivo al feed in Google Reader e continuo a scorrere verso il basso nella loro "quotazione infinita" interfaccia, mi sembra di poter ottenere un numero arbitrario di post di Slashdot dal passato - forse posso ottenere tutti i post di Slashdot di sempre?
- In che modo Google Reader recupera un numero illimitato di post da un feed RSS?
- Come posso fare lo stesso?
Soluzione
Google segue un'istanza del feed per tutti i suoi utenti, quindi hanno monitorato e archiviato articoli Slashdot, ad esempio, molto prima che qualsiasi nuovo abbonato iniziasse a leggere.
Per fare lo stesso, dovresti eseguire il polling dei feed RSS che desideri a intervalli regolari e memorizzare tutti gli articoli unici che trovi localmente.
Altri suggerimenti
Ho appena scoperto che se sei autenticato puoi fare qualcosa del tipo:
http: //www.google.com/reader/atom/feed/http://rss.slashdot.org/Slashdot/slashdot?n=100
per ottenere un numero arbitrario di risultati da un feed.
Stanno indicizzando il Web da anni e archiviano tutto ciò che trovano. Quindi nel momento in cui aggiungi un " iscriviti a questo " collegamento alla tua pagina, il crawler di Google inizierà a indicizzare quella pagina e la memorizzerà.
Per RSS hanno anche il vantaggio di avere più persone che si abbonano allo stesso feed.
Quindi, per la tua applicazione, ti suggerisco di risolverlo salvando tutti gli elementi scaricati localmente, in modo che i nuovi abbonati possano tornare al momento in cui il primo utente si è abbonato a quel feed. Non ti darà un numero illimitato, ma col tempo ti darà un archivio molto più grande degli ultimi 20 articoli.
Ho creato un servizio di archiviazione RSS che fa ciò di cui stai parlando ( https://app.pub.center ). Tutto l'RSS può essere utilizzato gratuitamente tramite REST. Se desideri ricevere notifiche push devi passare a un piano a pagamento.
PubCenter esegue quotidianamente il polling del suo catalogo di feed RSS e memorizza nella cache gli articoli. Quindi, è possibile recuperare questi articoli in un ordine cronologico. Ad esempio:
Pagina 1 di The Atlantic https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=1
Pagina 2 dell'Atlantico https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=2