質問

私は地元の新聞からニュースを取得するために、Pythonでfeedparserライブラリを使用しています(私の意図は、このコーパスの上に自然言語処理を行うことです)やRSSフィードから多くの過去のエントリを取得できるようにしたいと思います。

私は非常にRSSの技術的な問題に精通し、私はこれが(私はスクロールバーを移動すると、私は「GoogleリーダーとFeedlyは、「オンデマンド」」これを行うことができ、例えば、それを見ることができる)ことが可能なはずであると考えていませんよ。

私は次の操作を行うときます:

import feedparser

url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
   title = post.title

私は唯一のダースのエントリかそこらを取得します。私は数百人のことを考えていました。先月中に多分すべてのエントリ、可能な場合。唯一feedparserでこれを行うには、それは可能ですか?

私はRSSフィードからのニュース項目へのリンクのみを取得し、私がしたいテキストを取得するためにBeautifulSoupで全ページを解析していきます。代替ソリューションは、ニュース項目の多くを取得するには、ページ内のすべてのローカルリンクをたどり、クローラだろうが、私は今のところそれを避けたいです。

-

登場一つの解決策は、GoogleリーダーのRSSキャッシュを使用することです。

<のhref = "http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000" REL = "noreferrer"> http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000

私はGoogleリーダーにログインする必要があり、これを利用するのではなく。誰もが私のpythonからそれを行う方法を知っていますか? (私は実際に数値計算とI通常は混乱、ウェブについての事を知りません)。

役に立ちましたか?

解決

それはフィードが含まれているものですので、

あなたは唯一のダースのエントリかそこらを取得しています。あなたは歴史的なデータが必要な場合は、あなたが言ったデータのフィード/データベースを見つける必要があります。

ウェブ上で開いているデータを見つけることにいくつかのリソースについては、このはReadWriteWebの記事をチェックしてください。

Feedparserは、あなたのタイトルが示すように、このとは何の関係もないことに注意してください。 Feedparserは、あなたがそれを与えるものを解析します。それはあなたがそれを見つけない限り、歴史的なデータを見つけ、それにそれを渡すことはできません。それは単にパーサーです。それは物事をクリア願っています! :)

他のヒント

Bartekの答えを拡張するには:また、あなたはすでに見てきたフィード内のエントリのすべての格納を開始し、フィードのコンテンツの独自の歴史的なアーカイブを構築することができます。これは、(あなたがエントリの月分のコレクションを構築するために、月のためにこれをしなければならないと思いますので)コーパスとしての使用を開始するあなたの能力を遅らせるだろうが、あなたは、データのために他の誰に依存しないだろうます。

私は誤解されるかもしれないが、私はそれがGoogleリーダーが時間内に戻って行くことができる方法ですかなり確信している:彼らはどこかに保存された各フィードの過去のエントリを持っている。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top