문제

나는 Python의 FeedParser 라이브러리를 사용하여 지역 신문에서 뉴스를 검색하고 있습니다 (내 의도는이 코퍼스를 통해 자연 언어 처리를 수행하는 것입니다). RSS 피드에서 과거의 많은 항목을 검색 할 수 있기를 원합니다.

나는 RSS의 기술적 문제에 대해 잘 알고 있지는 않지만 이것이 가능해야한다고 생각합니다 (예 : Google Reader 및 Feedly가 스크롤 바를 움직일 때``주문형 ''을 할 수 있음을 알 수 있습니다).

다음을 수행 할 때 :

import feedparser

url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
   title = post.title

나는 12 개의 출품작 만 얻습니다. 나는 수백에 대해 생각하고 있었다. 가능하면 지난 달의 모든 출품작 일 수도 있습니다. FeedParser로만이 작업을 수행 할 수 있습니까?

RSS 피드에서 뉴스 항목에 대한 링크 만 제공하고 BeautifulSoup으로 전체 페이지를 구문 분석하여 원하는 텍스트를 얻으려고합니다. 대체 솔루션은 많은 뉴스 항목을 얻기 위해 페이지의 모든 로컬 링크를 따르는 크롤러입니다. 그러나 지금은 피하고 싶습니다.

--

나타나는 솔루션 중 하나는 Google Reader RSS 캐시를 사용하는 것입니다.

http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000

그러나 이에 액세스하려면 Google 리더에 로그인해야합니다. 누구든지 내가 파이썬에서 어떻게하는지 아는 사람이 있습니까? (저는 웹에 대해 정말로 모르겠습니다. 보통 수치 미적분학 만 엉망입니다).

도움이 되었습니까?

해결책

피드에 포함 된 것이기 때문에 12 개의 항목 만 받고 있습니다. 과거 데이터를 원한다면 상기 데이터의 피드/데이터베이스를 찾아야합니다.

이것을 확인하십시오 readwriteweb 기사 웹에서 열린 데이터를 찾는 데 대한 일부 리소스.

FeedParser는 제목이 제안한대로 이것과 관련이 없습니다. FeedParser는 당신이주는 것을 구문 분석합니다. 당신이 그것을 찾아서 그것을 전달하지 않으면 역사적인 데이터를 찾을 수 없습니다. 단순히 파서입니다. 일을 정리하기를 바랍니다! :)

다른 팁

Bartek의 답변을 확장하려면 : 이미 본 피드에 모든 항목을 저장하고 피드 컨텐츠에 대한 자신의 역사적 아카이브를 구축 할 수도 있습니다. 이것은 코퍼스로 사용하는 능력이 지연 될 것입니다 (한 달 동안의 항목을 구축하기 위해 한 달 동안이 작업을 수행해야하기 때문에) 데이터의 다른 사람에게 의존하지는 않습니다. .

나는 실수했을지 모르지만 Google Reader가 시간을 거슬러 올라갈 수있는 방법이라고 확신합니다. 각 피드의 과거 항목이 어딘가에 저장되어 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top