NLTK - كيفية معرفة ما يتم تثبيت كوربورا من داخل بيثون؟

https://stackoverflow.com/questions/1902967

19-09-2019
|

سؤال

أحاول تحميل بعض الشركات التي قمت بتثبيتها مع مثبت NLTK لكنني حصلت على:

>>> from nltk.corpus import machado
      Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      ImportError: cannot import name machado

ولكن في مدير التنزيل (nltk.download()) يتم تمييز حزمة Machado على أنها مثبتة ولدي nltk_data/corpus/machado مجلد.

كيف يمكنني أن أرى من داخل ثعبان IntePreter ما هي كورسا المثبتة؟

أيضا، ما هي الحزمة التي يجب أن أقوم بتثبيتها للعمل مع هذا كيف؟http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html.

لا أستطيع العثور على الوحدة nltk.examples المشار إليها في كيفية إلى.

المحلول

يحاول

import nltk.corpus
dir(nltk.corpus)

في هذه النقطة، ربما أخبرك بشيء __LazyModule__... القيام بذلك dir(nltk.corpus) تكرارا.

إذا لم ينجح ذلك، فحاول إكمال علامة التبويب في ipython.

نصائح أخرى

يتضمن NLTK حزمة، nltk.corpus, ، يحتوي على تعريفات من القراء Corpus (مثل PlainTextCorpusReader). تتضمن هذه الحزمة أيضا قائمة كبيرة من نقاط الوصول المحددة مسبقا لشركة Corga التي يمكن تنزيلها nltk.downloader(). وبعد نقاط الوصول هذه (على سبيل المثال، nltk.corpus.brown) يتم تعريف ما إذا كان قد تم تنزيل Corpus المقابلة أم لا.

لترى التي يتم تعريف نقاط الوصول في NLTK، استخدم dir(nltk.corpus) (بعد import nltk).
لترى أي من كورسا لديك في الخاص بك nltk_data المنطقة، جرب هذا:
```
import os
import nltk
print( os.listdir( nltk.data.find("corpora") ) )
```
هذا مجرد مقالب قائمة مع محتويات المجلد nltk_data/corpora. وبعد يمكنك أن تأخذها من هناك.
إذا لقد قمت بتثبيت Corpus الخاصة بك في ال nltk_data/corpora المنطقة والمنطقة NLTK لا يعرفون عن ذلك، تحتاج إلى إطلاق القارئ المناسب بنفسك. على سبيل المثال، إذا كان هذا الكسور النصي في corpora/mycorpus وجميع الملفات تنتهي في .txt, ، كنت تفعل ذلك مثل هذا:
```
import nltk
from nltk.corpus import PlaintextCorpusReader

mypath = nltk.data.find("corpora/mycorpus")
mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
```
ولكن في هذه الحالة، يمكنك وضع كوربوس الخاصة بك في أي مكان، والنقطة mypath إلى ذلك مباشرة بدلا من طرح NLTK للعثور عليه.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow