FeedParser 및 Google 뉴스

https://stackoverflow.com/questions/1671428

13-09-2019
|

문제

Python이있는 Universal FeedParser를 사용하여 Google News에서 뉴스 코퍼스 (자연어 처리를 시도하기 위해)를 다운로드하려고합니다. 나는 XML에 대해 전혀 모른다. 나는 FeedParser를 사용하는 방법의 예를 사용하고있다. 문제는 내가 RSS 피드에서 얻는 DICT에서 찾을 수 없다는 것입니다. 콘텐츠 뉴스의 제목입니다.

현재 사용하려는 코드는 다음과 같습니다.

import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss' 
# just some GNews feed - I'll use a specific search later

feed = feedparser.parse(url)
for post in feed.entries:
   print post.title
   print post.keys()

이 게시물에서 얻는 키는 제목, 요약, 날짜 등입니다. 내용이 없습니다.

이것이 Google 뉴스와 관련된 문제입니까, 아니면 내가 잘못하고 있습니까? 할 수있는 방법이 있습니까?

해결책

Google 뉴스에서 피드를 검사 했습니까?

각 피드에는 많은 정보와 실제 항목이 포함 된 루트 요소가 있습니다. 사용 가능한 것을 볼 수있는 더러운 방법은 다음과 같습니다.

import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')

print [field for field in d]

우리가 볼 수있는 것에서 우리는 가지고 있습니다 entries 대부분이 포함 된 필드 .. 뉴스 항목! 만약 너라면:

import pprint
pprint.pprint(entry for entry in d['entries'])

우리는 더 많은 정보를 얻습니다 :) 각 항목과 관련된 모든 필드를 예쁜 인쇄 방식으로 보여줄 것입니다 (Pprint의 것입니다).

따라서이 피드에서 뉴스 항목의 모든 제목을 가져 오기 위해 :

titles = [entry.title for entry in d['entries']

그래서, 그것으로 놀아요. 잘만되면 그것은 도움이되는 시작입니다

다른 팁

먼저 체크 아웃해야합니다 RSS 사양. 그리고 여기에 있습니다 사료 파서. 그것은 당신을 시작해야합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow