誰かがこのMgizaスクリプトがどのように機能するかを説明できますか?

StackOverflow https://stackoverflow.com/questions/5375980

質問

$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be 
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files

Plain2SNTスクリプトのすべてのアクレーン入力が何であるかを誰かが説明できますか?スクリプトは、からの単語アライメントのためのMgiza ++プログラムからのものです http://geek.kyloo.net/software/doku.php/mgiza:forcealignment

evcb =? #source.vcbファイルですか? fvcb =? #target.vcbファイルですか?

esnt(out)=? fsnt(out)=?

evcbx(out)=? fvcbx(out)=?

答え

なんとかそれを機能させることができました

$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt
役に立ちましたか?

解決

Giza ++での私の(同等ではない)エクスペリエンスとあなたがリンクするページに基づいて、EVCBとFVCBはすでに生成した「英語」と「外国の」Vocabファイルであり、ETXTとFTXTは「英語」であると思います。および「外国」テキスト入力。その場合、ESNTとFSNTは「英語」と「外国」文の出力ファイル(おそらく、VCBファイルの一意の識別子に置き換えられた単語の文章の文章)であるように思われます。最後に、EVCBXとFVCBXは、連結により元のVoCabファイルを拡張するための出力位置のようです。

これが役立つことを願っています。Mgizaを使用した他の誰かが、私が間違っている場合は飛び込んで私を修正できることを願っています。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top