feedparserとGoogleニュース
-
13-09-2019 - |
質問
私はニュースのコーパスをダウンロードしようとしているのpythonユニバーサルfeedparserを使用してGoogleニュースから(いくつかの自然言語処理を実行しようとします)。私は本当に私はちょうどfeedparserを使用する方法の例を使用している、XMLの何も知りません。 問題は、私はニュースだけタイトルのの内容をのフィード私はRSSから取得する辞書で見つけることができないということです。
私は現在、使用しようとしているコードは、この次のとおりです。
import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss'
# just some GNews feed - I'll use a specific search later
feed = feedparser.parse(url)
for post in feed.entries:
print post.title
print post.keys()
私はこの記事に入るキーにはコンテンツがありません...など、単にタイトル、概要、日付あります。
これはGoogleニュースといくつかの問題ですか、私は間違って何をやっていますか?それを行うための方法はありますか?
解決
あなたはGoogleニュースからのフィードを調べたことがありますか?
情報の束と実際のエントリの辞書を含む各フィードのルート要素があります。ここで利用できるものを見るために汚い方法です。
import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')
print [field for field in d]
私たちは、最も可能性の高い...ニュースのエントリが含まれていentries
フィールドを持って見ることができるものから!あなたの場合:
import pprint
pprint.pprint(entry for entry in d['entries'])
私たちは(それがPPRINTが何のためにあるのかだ)あなたはかなりの印刷方法で、各エントリに関連するすべてのフィールドが表示されますいくつかのより多くの情報を得る:)
だから、このフィードから私達のニュース項目のすべてのタイトルを取得するには:
titles = [entry.title for entry in d['entries']
そう、それで遊びます。うまくいけば、それは役に立ちスタートだ。
所属していません StackOverflow