NLTK-如何找出是什么语料库都已安装的内蟒蛇?
题
我想到负荷的一些语料库我安装的NLTK安装,但我有一个:
>>> from nltk.corpus import machado
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: cannot import name machado
但在载管理(nltk.download()
)包machado被标记为安装和我有一个 nltk_data/corpus/machado
文件夹。
我怎么能看到从内部python intepreter什么是安装语料库?
还有,什么样的包裹我应该安装工作与这个如何?http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html
我找不到该模块 nltk.examples
称如何。
解决方案
试
import nltk.corpus
dir(nltk.corpus)
在这一点,它可能告诉你一些关于__LazyModule__...
再次这样做dir(nltk.corpus)
。
如果还是不行,请尝试IPython的制表完成。
其他提示
该NLTK包括一个软件包, nltk.corpus
, 那包含的定义料库的读者(例如 PlainTextCorpusReader
).这个软件包,也包括一个大型的清单的预定访问点语料库,可以下载 nltk.downloader()
.这些接入点(例如, nltk.corpus.brown
)的定义是否应料库已被下载。
看看 的访问点是定义 在NLTK,使用
dir(nltk.corpus)
(后import nltk
).看看 这你有语料库 在你
nltk_data
区域,试试这个:import os import nltk print( os.listdir( nltk.data.find("corpora") ) )
这只是垃圾场列表的内容的文件夹
nltk_data/corpora
.你可以把它从那里。如果 你已经安装了自己的语料库 在
nltk_data/corpora
区域和NLTK不知道关于它的,你需要火了适当的读者自己。E.g., 如果这是一个明文料库中corpora/mycorpus
和所有的文件在结束.txt
, 你会做这样的:import nltk from nltk.corpus import PlaintextCorpusReader mypath = nltk.data.find("corpora/mycorpus") mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
但在这种情况下你可以把你自己的语料库的任何地方,并点
mypath
它直接而不是要求NLTK找到它。