我正在写一些代码,计算关于使用字词某些统计数据。

有谁知道在哪里可以找到不同主题的原始新闻文章的数据库,通过一个周期(比如说)在去年的?优选地,它们将是无论是在纯文本格式或XML。试图从随机网站的内容拼凑而成的是不是一个好的选择。

我知道前进我大概可以存档他们自己。不过,我需要踢了一堆现有物品的启动过程......越多越好。

对于语料库数据集易于获得以简单的解析形式任何其他的想法也将理解的。

有帮助吗?

解决方案

您可以尝试互联网档案馆。他们有一个文本部分,但我不知道是否有消息。您可能还可以使用自己的Wayback机器使用其RSS提要,从各大网站上拉新闻文章。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top