feedparserとGoogleニュース

https://stackoverflow.com/questions/1671428

13-09-2019
|

質問

私はニュースのコーパスをダウンロードしようとしているのpythonユニバーサルfeedparserを使用してGoogleニュースから（いくつかの自然言語処理を実行しようとします）。私は本当に私はちょうどfeedparserを使用する方法の例を使用している、XMLの何も知りません。問題は、私はニュースだけタイトルのの内容をのフィード私はRSSから取得する辞書で見つけることができないということです。

私は現在、使用しようとしているコードは、この次のとおりです。

import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss' 
# just some GNews feed - I'll use a specific search later

feed = feedparser.parse(url)
for post in feed.entries:
   print post.title
   print post.keys()

私はこの記事に入るキーにはコンテンツがありません...など、単にタイトル、概要、日付あります。

これはGoogleニュースといくつかの問題ですか、私は間違って何をやっていますか？それを行うための方法はありますか？

解決

あなたはGoogleニュースからのフィードを調べたことがありますか？

情報の束と実際のエントリの辞書を含む各フィードのルート要素があります。ここで利用できるものを見るために汚い方法です。

import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')

print [field for field in d]

私たちは、最も可能性の高い...ニュースのエントリが含まれていentriesフィールドを持って見ることができるものから！あなたの場合：

import pprint
pprint.pprint(entry for entry in d['entries'])

私たちは（それがPPRINTが何のためにあるのかだ）あなたはかなりの印刷方法で、各エントリに関連するすべてのフィールドが表示されますいくつかのより多くの情報を得る:)

だから、このフィードから私達のニュース項目のすべてのタイトルを取得するには：

titles = [entry.title for entry in d['entries']

そう、それで遊びます。うまくいけば、それは役に立ちスタートだ。

他のヒント

まず、 RSS仕様をチェックアウトする必要があります。そして、ここでフィードパーサーのです。それはあなたが始める必要があります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow