كيفية بناء نظام العمل مفتوح المصدر IMS و NLTK القراءة Corpus؟

https://stackoverflow.com/questions/5038283

15-11-2019
|

سؤال

حاليا لدي مجموعة من .txtfiles.داخل كل ملفات .txt، يتم فصل كل جملة عن طريق Newline.كيف يمكنني تغييره إلى تنسيق IMS CWB بحيث يمكن قراءته بواسطة CWB؟وأيضا لتنسيق NLTK.

هل يمكن لأي شخص أن يقودني إلى صفحة Howto للقيام بذلك؟أو هل هناك صفحة دليل للقيام بذلك، لقد حاولت القراءة من خلال الدليل لكنني لا أعرف حقا.www.cwb.sourceforge.net/files/cwb_encoding_tutorial.pdf

هل يعني أنني أقوم بإنشاء دليل بيانات وطريقا ثم قمت بتشغيل أمر CWB-EXODE وسيتم تحويله إلى ملف VRT؟هل يحول ملف واحد في وقت واحد؟كيف يمكنني تشغيله من خلال ملف متعدد في الدليل؟

المحلول

It's easy to produce cwb's "verticalized" format from an NLTK-readable corpus:

from nltk.corpus import brown

out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
     print >>out,'<s>'
     for word in sentence:
          print >>out,word
     print >>out,'</s>'
out.close()

From there, you can follow the instructions on the CWB website.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow