NLTK-如何找出是什么语料库都已安装的内蟒蛇?

https://stackoverflow.com/questions/1902967

19-09-2019
|

题

我想到负荷的一些语料库我安装的NLTK安装，但我有一个:

>>> from nltk.corpus import machado
      Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      ImportError: cannot import name machado

但在载管理(nltk.download())包machado被标记为安装和我有一个 nltk_data/corpus/machado 文件夹。

我怎么能看到从内部python intepreter什么是安装语料库?

还有，什么样的包裹我应该安装工作与这个如何?http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

我找不到该模块 nltk.examples 称如何。

解决方案

试

import nltk.corpus
dir(nltk.corpus)

在这一点，它可能告诉你一些关于__LazyModule__...再次这样做dir(nltk.corpus)。

如果还是不行，请尝试IPython的制表完成。

其他提示

该NLTK包括一个软件包， nltk.corpus, 那包含的定义料库的读者(例如 PlainTextCorpusReader).这个软件包，也包括一个大型的清单的预定访问点语料库，可以下载 nltk.downloader().这些接入点(例如， nltk.corpus.brown)的定义是否应料库已被下载。

看看 的访问点是定义 在NLTK，使用 dir(nltk.corpus) (后 import nltk).
看看 这你有语料库 在你 nltk_data 区域，试试这个：
```
import os
import nltk
print( os.listdir( nltk.data.find("corpora") ) )
```
这只是垃圾场列表的内容的文件夹 nltk_data/corpora.你可以把它从那里。
如果 你已经安装了自己的语料库 在 nltk_data/corpora 区域和NLTK不知道关于它的，你需要火了适当的读者自己。E.g.，如果这是一个明文料库中 corpora/mycorpus 和所有的文件在结束 .txt, 你会做这样的：
```
import nltk
from nltk.corpus import PlaintextCorpusReader

mypath = nltk.data.find("corpora/mycorpus")
mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
```
但在这种情况下你可以把你自己的语料库的任何地方，并点 mypath 它直接而不是要求NLTK找到它。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow