我想到负荷的一些语料库我安装的NLTK安装,但我有一个:

>>> from nltk.corpus import machado
      Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      ImportError: cannot import name machado

但在载管理(nltk.download())包machado被标记为安装和我有一个 nltk_data/corpus/machado 文件夹。

我怎么能看到从内部python intepreter什么是安装语料库?

还有,什么样的包裹我应该安装工作与这个如何?http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

我找不到该模块 nltk.examples 称如何。

有帮助吗?

解决方案

import nltk.corpus
dir(nltk.corpus)

在这一点,它可能告诉你一些关于__LazyModule__...再次这样做dir(nltk.corpus)

如果还是不行,请尝试IPython的制表完成。

其他提示

该NLTK包括一个软件包, nltk.corpus, 那包含的定义料库的读者(例如 PlainTextCorpusReader).这个软件包,也包括一个大型的清单的预定访问点语料库,可以下载 nltk.downloader().这些接入点(例如, nltk.corpus.brown)的定义是否应料库已被下载。

  1. 看看 的访问点是定义 在NLTK,使用 dir(nltk.corpus) (后 import nltk).

  2. 看看 这你有语料库 在你 nltk_data 区域,试试这个:

    import os
    import nltk
    print( os.listdir( nltk.data.find("corpora") ) )
    

    这只是垃圾场列表的内容的文件夹 nltk_data/corpora.你可以把它从那里。

  3. 如果 你已经安装了自己的语料库nltk_data/corpora 区域和NLTK不知道关于它的,你需要火了适当的读者自己。E.g., 如果这是一个明文料库中 corpora/mycorpus 和所有的文件在结束 .txt, 你会做这样的:

    import nltk
    from nltk.corpus import PlaintextCorpusReader
    
    mypath = nltk.data.find("corpora/mycorpus")
    mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
    

    但在这种情况下你可以把你自己的语料库的任何地方,并点 mypath 它直接而不是要求NLTK找到它。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top