自然语言:建设(小)语料库、或"从哪里得到大量的不太专业化的英语语言文字的文件吗？"

https://stackoverflow.com/questions/137380

02-07-2019
|

题

任何人都不会有一个建议在哪里可以找到档案或集的日常英文文本中使用的中小型corpus?我一直在使用古腾堡项目的书籍一个工作原型，并希望将更多的现代语言。一个最近的答案这里指的间接到一个伟大的存档的新闻电影的评论, ，这没有发生在我身上，是非常好的。对于这个特定程序的技术新闻档案或程序的邮件列表将倾斜，结果是难以分析，但任何种类的一般博客的文字，或聊天记录，或任何东西，可能已经对别人有用，将是非常有帮助的。此外，局部或可下载的研究料库，是不是太过标记的，或者一些启发式找到适当的子集维基百科的文章，或任何其他想法，是非常赞赏。

(顺便说一句，我作为一个好公民w/r/t下载，使用故意放慢脚本不是要求上服务器托管这种材料，如果你认为道德危险在指着我的东西巨大的。)

更新:用户S0rin指出，维基百科的请求没有爬行和提供这种出口的工具代替。项目古腾堡有一项政策指定在这里，, 底线，试着不要在地上爬，但是如果你需要："配置你的机器人至少要等2秒钟之间的请求。"

更新2 该wikpedia垃圾场的路要走，感谢answerers人指出他们。我最终使用的英文版本，从这里: http://download.wikimedia.org/enwiki/20090306/ 和西班牙转储的大约一半的大小。他们是一些工作，以清理，但是值得的，它们包含了很多有用的数据的链接。

解决方案

使用维基百科的垃圾场
- 需要大量的清除
看到如果任何东西 nltk数据可以帮助你
- 的语料库通常是相当小
的古怪人们有一些免费的语料库
- 标记
- 你可以蜘蛛自己的语料库使用其工具包
Europarl 是免费的基础的几乎每一个学术吨系统
- 的口语，翻译
的路透社语料库都是免费的，但只适用于CD

你总是可以得到自己的，但是警告说：HTML网页常常需要重型清除，所以将自己局限于RSS源。

如果你做的这个商，最不发达国家可能是一个可行的选择。

其他提示

维基百科听起来像是要走的路。有一个实验性维基百科API 可能有用，但我不知道如何有用。到目前为止，我只使用自定义蜘蛛甚至 wget 来删除维基百科。

然后，您可以搜索在RSS Feed中提供完整文章文本的网页。 RSS，因为没有HTML标签妨碍你。

刮痧邮件列表和/或Usenet有几个不利之处：你将获得AOLbonics和Techspeak，这会严重影响你的语料库。

古典语料库是Penn Treebank和英国国家语料库，但它们是有偿的。您可以阅读 Corpora列表档案，甚至可以向他们询问相关信息。也许您可以使用 Web as Corpus 工具找到有用的数据。

我实际上有一个小型的构建项目，允许在任意网页上进行语言处理。它应该在接下来的几周内准备好使用，但它到目前为止并不是真正意义上的刮刀。但我可以为它编写一个模块，我猜，功能已经存在。

如果您愿意付钱，您应该查看Linguistic Data Consortium提供的数据，例如Penn Treebank。

维基百科似乎是最好的方式。是的，你必须解析输出。但是，由于维基百科的类别，您可以轻松获得不同类型的文章和文字。例如通过解析所有科学类别，您可以获得许多科学词汇。有关地方的详细信息将倾向于地理名称等。

你已经涵盖了明显的一些。我能想到的唯一其他领域也是补充：

1）新闻文章/博客。

2）杂志在网上发布了大量免费资料，你可以获得很好的主题。

寻找到了维基百科的数据，我注意到他们已经做了一些分析机构的电视和电影剧本.我认为，可能有趣的文本，但不容易--事实证明它是无处不在，它是结构化的和可预测的足够的，它应该是可能的，它清理干净。这个网站, ，有益的标题为"一堆的电影剧本和剧本在一个位置上网"，可能是有用的任何人绊倒的这个线程，与一个类似的问题。

您可以在此处获取报价内容（限量形式）： http://quotationsbook.com/services/

此内容也恰好在Freebase上。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow