質問

私は、単語の用法に関する特定の統計情報を計算し、いくつかのコードを書いています。

私は(例えば)昨年の期間にわたって、さまざまなトピックからの生のニュース記事のデータベースを見つけることができない誰が知っていますか?好ましくは、それらは、プレーンテキスト形式またはXMLのいずれかになります。ランダムウェブサイトからスクレープ内容にしようとするのは良い選択肢ではありません。

私は、私はおそらく、彼らに自分自身をアーカイブすることができ、今後知っています。しかし、私は既存の記事の束を使用してプロセスを開始キックする必要があります...もっと陽気ます。

の解析形に簡単で容易に入手可能であるコーパスデータセットのための任意の他のアイデアも理解されるだろう。

役に立ちましたか?

解決

あなたはインターネットアーカイブを試してみてください。彼らは、テキストセクションを持っていますが、それはニュースを持っている場合、私は知りません。あなたはまた、彼らのRSSフィードを使用して、主要なサイトからニュース記事をプルアップするために彼らのウェイバックマシンを使用することができるかもしれません。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top