Domanda

Ho un'applicazione che esegue il polling diverse fonti rss su web.

Che cosa è il galateo quando si esegue il polling altri server web.La frequenza di polling, ecc?

Quali sono le migliori pratiche?

È stato utile?

Soluzione

  1. Fare uso di cache di HTTP. Invia Etag e LastModified intestazioni. Riconoscere risposta 304 Not modified. In questo modo è possibile risparmiare un sacco di banda. Inoltre alcuni script riconoscono l'intestazione LastModified e restituiscono solo contenuti parziali (cioè. Solo due o tre nuovi articoli invece di tutti 30 circa).

  2. Non polling RSS dai servizi che supporta RPC Ping ( o di altro servizio PUSH, come ad esempio PubSubHubbub ). Cioè se ricevi notifiche push da un servizio, non c'è bisogno di interrogare i dati nell'intervallo di serie - si fa una volta al giorno per verificare se il meccanismo funziona ancora o no (ping può essere disattivata, riconfigurato, danneggiato, ecc ). In questo modo è possibile recuperare solo su RSS ricevuto la notifica, non ogni ora o giù di lì.

  3. Controlla il TTL (RSS) o intestazioni di controllo della cache (Expires in ATOM), e non prendere fino alla scadenza delle risorse.

  4. Prova di adattarsi a frequenza di nuovi elementi in ogni singolo feed RSS. Se la scorsa settimana c'erano solo due aggiornamenti, in particolare alimenti, non prendere più di una volta al giorno. AFAIR Google Reader fa.

  5. Abbassare la velocità con le ore notturne o altro momento in cui il traffico sul tuo sito è basso.

  6. Finalmente, farlo una volta un'ora. ;)

Altri suggerimenti

Google FeedFetcher sostiene che i sondaggi di feed rss leggermente meno di una volta all'ora.

Da: http://code.google.com/apis/ajaxfeeds/documentation/

Alimentazione Frequenza Di Scansione

Come Google AJAX Feed API utilizza Feedfetcher, feed di dati AJAX Feed API potrebbero non essere sempre aggiornati.Google feed crawler ("Feedfetcher") recupera i feed dalla maggior parte dei siti a meno di una volta ogni ora.Alcuni siti aggiornati di frequente può essere aggiornato più spesso.

Beh ho intenzione di andare là fuori, ignorando i messaggi che dicono "Google dice che facciamo", e dicono:. Le volte che si realisticamente necessario

RSS è lì per tenervi aggiornati. Se un feed pubblica 10 articoli all'ora, ma mostra solo cinque, vi perderete cinque di questi elementi e il mangime non persegue il suo scopo. Si potrebbe anche non ha colpito affatto.

Naturalmente, non è possibile martellare il server con le richieste, ma se stanno pubblicando sufficiente per avere voi la richiesta una volta al minuto, non vedo come sia irragionevole corrispondere a quello dei tassi.

Una volta un'ora , se si vuole andare solo dalla regola del pollice (ma il collegamento spiega alcune opzioni migliori).

Una volta che un'ora è una frequenza che ho sentito.

Rss ha un'impostazione TTL in esso in modo davvero si dovrebbe interrogare solo quando il TTL scade.

Ma credo che se non mettono una nella sua il loro problema e si dovrebbe interrogare qualcosa di simile a una volta ogni ora

Questa non è una risposta completa, ma guarda per gli avvisi push.

Il blog RSS indica che una pratica migliore è chiedere weblogs.com sui blog modificati

C'è anche qualche, ehm, confusione, sulla PubSub , un modo per iscriversi a spingere avvisi che ha un certo slancio.

Ho notato che utilizza Twitter (personalizzato) X-RateLimit-Remaining e X-RateLimit-Limit intestazioni (in risposta HTTP) per indicare il numero massimo di sondaggi autorizzati per Atom. E 'in qualche modo un peccato che non hanno utilizzato il campo standard Expires (che si trova a 30 anni nel passato: P) (. Sezione 13.2 *) Credo che la loro pubblicità di Cache-Control: no-cache esclude anche il tempo heursitic scadenza generico definito nella RFC 2616 . E 'ancora più un peccato che Atom non sembra fornire alcun modo standardizzato per raccontare come spesso si è suggerito di interrogare il feed.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top