NLTK - كيفية معرفة ما يتم تثبيت كوربورا من داخل بيثون؟
سؤال
أحاول تحميل بعض الشركات التي قمت بتثبيتها مع مثبت NLTK لكنني حصلت على:
>>> from nltk.corpus import machado
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: cannot import name machado
ولكن في مدير التنزيل (nltk.download()
) يتم تمييز حزمة Machado على أنها مثبتة ولدي nltk_data/corpus/machado
مجلد.
كيف يمكنني أن أرى من داخل ثعبان IntePreter ما هي كورسا المثبتة؟
أيضا، ما هي الحزمة التي يجب أن أقوم بتثبيتها للعمل مع هذا كيف؟http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html.
لا أستطيع العثور على الوحدة nltk.examples
المشار إليها في كيفية إلى.
المحلول
يحاول
import nltk.corpus
dir(nltk.corpus)
في هذه النقطة، ربما أخبرك بشيء __LazyModule__...
القيام بذلك dir(nltk.corpus)
تكرارا.
إذا لم ينجح ذلك، فحاول إكمال علامة التبويب في ipython.
نصائح أخرى
يتضمن NLTK حزمة، nltk.corpus
, ، يحتوي على تعريفات من القراء Corpus (مثل PlainTextCorpusReader
). تتضمن هذه الحزمة أيضا قائمة كبيرة من نقاط الوصول المحددة مسبقا لشركة Corga التي يمكن تنزيلها nltk.downloader()
. وبعد نقاط الوصول هذه (على سبيل المثال، nltk.corpus.brown
) يتم تعريف ما إذا كان قد تم تنزيل Corpus المقابلة أم لا.
لترى التي يتم تعريف نقاط الوصول في NLTK، استخدم
dir(nltk.corpus)
(بعدimport nltk
).لترى أي من كورسا لديك في الخاص بك
nltk_data
المنطقة، جرب هذا:import os import nltk print( os.listdir( nltk.data.find("corpora") ) )
هذا مجرد مقالب قائمة مع محتويات المجلد
nltk_data/corpora
. وبعد يمكنك أن تأخذها من هناك.إذا لقد قمت بتثبيت Corpus الخاصة بك في ال
nltk_data/corpora
المنطقة والمنطقة NLTK لا يعرفون عن ذلك، تحتاج إلى إطلاق القارئ المناسب بنفسك. على سبيل المثال، إذا كان هذا الكسور النصي فيcorpora/mycorpus
وجميع الملفات تنتهي في.txt
, ، كنت تفعل ذلك مثل هذا:import nltk from nltk.corpus import PlaintextCorpusReader mypath = nltk.data.find("corpora/mycorpus") mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
ولكن في هذه الحالة، يمكنك وضع كوربوس الخاصة بك في أي مكان، والنقطة
mypath
إلى ذلك مباشرة بدلا من طرح NLTK للعثور عليه.