IMSオープンソースのコーパスワークベンチとNLTK読み取り可能なコーパスを構築する方法
質問
現在は.txtfilesの束があります。各.txtファイル内で、各文は改行によって区切られています。CWBによって読みやすくなるようにIMS CWB形式に変更するにはどうすればよいですか。また、NLTKフォーマットにも。
誰かがそれをするためのHOWTOページに私を導くことができますか?それをするためのガイドページがあります、私はマニュアルを読んでみましたが、私は本当に知っていません。www.cwb.sourceforge.net/files/cwb_encoding_tutorial.pdf
データとレジストリディレクトリを作成してからcwb-encodeコマンドを実行して、すべてVRTファイルに変換されますか?一度に1つのファイルを変換しますか?ディレクトリ内の複数のファイルを実行するようにスクリプトをスクリプト化するにはどうすればよいですか?
解決
It's easy to produce cwb's "verticalized" format from an NLTK-readable corpus:
from nltk.corpus import brown
out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
print >>out,'<s>'
for word in sentence:
print >>out,word
print >>out,'</s>'
out.close()
From there, you can follow the instructions on the CWB website.
所属していません StackOverflow