Pergunta

Eu estou usando a biblioteca feedparser em python para recuperar notícias de um jornal local (minha intenção é fazer processamento de linguagem natural ao longo deste corpus) e gostaria de ser capaz de recuperar muitas entradas passadas a partir do feed RSS.

Eu não estou muito familiarizado com as questões técnicas de RSS, mas eu acho que isso deve ser possível (eu posso ver que, por exemplo, Google Reader e Feedly pode fazer isso '' on demand '' como eu mover a barra de rolagem) .

Quando eu faço o seguinte:

import feedparser

url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
   title = post.title

Eu recebo apenas uma dúzia de entradas ou assim. Eu estava pensando em centenas. Talvez todas as entradas no mês passado, se possível. É possível fazer isso apenas com feedparser?

Eu pretendo começar a partir do feed RSS apenas o link para a notícia e analisar a página completa com BeautifulSoup obter o texto que eu quero. Uma solução alternativa seria um rastreador que segue todas as ligações locais na página para obter um lote de itens de notícias, mas eu quero evitar que, por enquanto.

-

Uma solução que apareceu é usar o cache Google Reader RSS:

http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000

Mas acessar este Devo estar conectado ao Google Reader. Alguém sabe como eu faço isso a partir de python? (Eu realmente não sei nada sobre web, eu normalmente só mexer com cálculo numérico).

Foi útil?

Solução

Você está recebendo apenas uma dúzia de entradas ou assim porque é isso que o feed contém. Se você deseja que os dados históricos que você terá que encontrar um feed / banco de dados de tais dados.

Confira este ReadWriteWeb artigo para alguns recursos na busca de dados abertos na web.

Note que feedparser não tem nada a ver com isso como seu título sugere. Feedparser analisa o que você lhe dá. Não pode encontrar dados históricos a menos que você encontrá-lo e passá-lo para ele. É simplesmente um analisador. Espero que isso esclareça as coisas! :)

Outras dicas

Para expandir a resposta de Bartek: Você também pode começar a armazenar todas as entradas no feed que você já viu, e construir o seu próprio arquivo histórico do conteúdo do feed. Isso iria atrasar a sua capacidade de começar a usá-lo como um corpus (porque você tem que fazer isso por um mês para criar uma coleção de valor de um mês de entradas), mas você não seria dependente de qualquer outra pessoa para os dados .

posso estar enganado, mas eu tenho certeza de que é como o Google Reader pode voltar no tempo:. Eles têm entradas últimos de cada alimentação em algum lugar armazenados

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top