كيفية بناء نظام العمل مفتوح المصدر IMS و NLTK القراءة Corpus؟
سؤال
حاليا لدي مجموعة من .txtfiles.داخل كل ملفات .txt، يتم فصل كل جملة عن طريق Newline.كيف يمكنني تغييره إلى تنسيق IMS CWB بحيث يمكن قراءته بواسطة CWB؟وأيضا لتنسيق NLTK.
هل يمكن لأي شخص أن يقودني إلى صفحة Howto للقيام بذلك؟أو هل هناك صفحة دليل للقيام بذلك، لقد حاولت القراءة من خلال الدليل لكنني لا أعرف حقا.www.cwb.sourceforge.net/files/cwb_encoding_tutorial.pdf
هل يعني أنني أقوم بإنشاء دليل بيانات وطريقا ثم قمت بتشغيل أمر CWB-EXODE وسيتم تحويله إلى ملف VRT؟هل يحول ملف واحد في وقت واحد؟كيف يمكنني تشغيله من خلال ملف متعدد في الدليل؟
المحلول
It's easy to produce cwb's "verticalized" format from an NLTK-readable corpus:
from nltk.corpus import brown
out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
print >>out,'<s>'
for word in sentence:
print >>out,word
print >>out,'</s>'
out.close()
From there, you can follow the instructions on the CWB website.
لا تنتمي إلى StackOverflow