質問

私はニュースのコーパスをダウンロードしようとしているのpythonユニバーサルfeedparserを使用してGoogleニュースから(いくつかの自然言語処理を実行しようとします)。私は本当に私はちょうどfeedparserを使用する方法の例を使用している、XMLの何も知りません。 問題は、私はニュースだけタイトルのの内容をのフィード私はRSSから取得する辞書で見つけることができないということです。

私は現在、使用しようとしているコードは、この次のとおりです。

import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss' 
# just some GNews feed - I'll use a specific search later

feed = feedparser.parse(url)
for post in feed.entries:
   print post.title
   print post.keys()

私はこの記事に入るキーにはコンテンツがありません...など、単にタイトル、概要、日付あります。

これはGoogleニュースといくつかの問題ですか、私は間違って何をやっていますか?それを行うための方法はありますか?

役に立ちましたか?

解決

あなたはGoogleニュースからのフィードを調べたことがありますか?

情報の束と実際のエントリの辞書を含む各フィードのルート要素があります。ここで利用できるものを見るために汚い方法です。

import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')

print [field for field in d]

私たちは、最も可能性の高い...ニュースのエントリが含まれていentriesフィールドを持って見ることができるものから!あなたの場合:

import pprint
pprint.pprint(entry for entry in d['entries'])

私たちは(それがPPRINTが何のためにあるのかだ)あなたはかなりの印刷方法で、各エントリに関連するすべてのフィールドが表示されますいくつかのより多くの情報を得る:)

だから、このフィードから私達のニュース項目のすべてのタイトルを取得するには:

titles = [entry.title for entry in d['entries']

そう、それで遊びます。うまくいけば、それは役に立ちスタートだ。

他のヒント

まず、 RSS仕様をチェックアウトする必要があります。そして、ここでフィードパーサーのです。それはあなたが始める必要があります。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top