Pregunta

Estoy usando la biblioteca feedparser en Python para recuperar las noticias de un periódico local (mi intención es hacer el Procesamiento del Lenguaje Natural sobre este corpus) y me gustaría ser capaz de recuperar muchas entradas anteriores de la fuente RSS.

No estoy muy familiarizado con los aspectos técnicos de RSS, pero creo que esto debería ser posible (puedo ver que, por ejemplo, Google Reader y Feedly pueden hacer esto '' bajo demanda '' mientras me muevo la barra de desplazamiento) .

Cuando hago lo siguiente:

import feedparser

url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
   title = post.title

consigo sólo una docena de entradas o menos. Estaba pensando en cientos. Tal vez todas las entradas en el último mes, si es posible. ¿Es posible hacer esto sólo con feedparser?

Tengo la intención de obtener de la fuente RSS sólo el enlace a la noticia y analizar la página completa con BeautifulSoup para obtener el texto que quiero. Una solución alternativa sería un rastreador que sigue todos los enlaces locales en la página para obtener una gran cantidad de artículos de noticias, pero quiero evitar que, por ahora.

-

Una solución que apareció es el uso de la caché de Google Reader RSS:

http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000

Sin embargo, para acceder a esta Debo estar conectado a Google Reader. Alguien sabe cómo hacer que a partir de pitón? (Realmente no sé nada de la web, por lo general sólo se metan con el cálculo numérico).

¿Fue útil?

Solución

está consiguiendo solamente una docena de entradas o menos, porque eso es lo que contiene el alimento. Si desea que los datos históricos que tendrá que encontrar un alimento / base de datos de dichos datos.

Consulte esta ReadWriteWeb artículo para algunos recursos en la búsqueda de datos abiertos en la web.

Tenga en cuenta que feedparser no tiene nada que ver con esto como su título indica. Feedparser analiza lo que le des. No puede encontrar datos históricos a menos que encuentre y lo pasa en ella. Se trata simplemente de un analizador. ¡Espero que eso aclare las cosas! :)

Otros consejos

Para ampliar la respuesta de Bartek: También podría comenzar a almacenar todas las entradas de la alimentación que ya ha visto, y construir su propio archivo histórico del contenido de la alimentación. Esto retrasaría su capacidad para empezar a utilizarlo como un corpus (debido a que tendría que hacer esto durante un mes para construir una colección de valor de un mes de las entradas), pero no sería dependiente de nadie más para los datos .

Puedo estar equivocado, pero estoy bastante seguro de que es como Google Reader puede volver atrás en el tiempo:. Tienen las entradas pasadas de cada piensos almacenadas en algún lugar

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top