IMSオープンソースのコーパスワークベンチとNLTK読み取り可能なコーパスを構築する方法

https://stackoverflow.com/questions/5038283

15-11-2019
|

質問

現在は.txtfilesの束があります。各.txtファイル内で、各文は改行によって区切られています。CWBによって読みやすくなるようにIMS CWB形式に変更するにはどうすればよいですか。また、NLTKフォーマットにも。

誰かがそれをするためのHOWTOページに私を導くことができますか？それをするためのガイドページがあります、私はマニュアルを読んでみましたが、私は本当に知っていません。www.cwb.sourceforge.net/files/cwb_encoding_tutorial.pdf

データとレジストリディレクトリを作成してからcwb-encodeコマンドを実行して、すべてVRTファイルに変換されますか？一度に1つのファイルを変換しますか？ディレクトリ内の複数のファイルを実行するようにスクリプトをスクリプト化するにはどうすればよいですか？

解決

It's easy to produce cwb's "verticalized" format from an NLTK-readable corpus:

from nltk.corpus import brown

out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
     print >>out,'<s>'
     for word in sentence:
          print >>out,word
     print >>out,'</s>'
out.close()

From there, you can follow the instructions on the CWB website.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow