Kann jemand erklären, wie dieses Mgiza-Skript funktioniert?
-
28-10-2019 - |
Frage
$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files
Kann jemand erklären, was die ganzen Acrane-Eingaben für das Plain2SNT-Skript sind?Das Skript stammt aus dem mgiza++-Programm zur Wortausrichtung http://geek.kyloo.net/software/doku.php/mgiza:forcealignment
evcb = ?#ist es die Datei „source.vcb“?fvcb = ?#ist es die Datei target.vcb?
esnt(out) = ?fsnt(out) = ?
evcbx(out) = ?fvcbx (out) = ?
ANTWORT
Ich habe es geschafft, es zum Laufen zu bringen
$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt
Lösung
Basierend auf meiner (nicht gleichwertigen) Erfahrung mit GIZA++ und der Seite, auf die Sie verlinken, würde ich sagen, dass evcb und fvcb die „englischen“ und „fremden“ Vokabeldateien sind, die Sie bereits generiert haben, und dass etxt und ftxt die „englischen“ Vokabeldateien sind. und „Fremde“ Texteingaben.Es scheint dann, dass esnt und fsnt die Ausgabedateien für „englische“ und „ausländische“ Sätze sind (wahrscheinlich die Sätze, bei denen die Wörter durch ihre eindeutigen Bezeichner aus den vcb-Dateien ersetzt wurden).Schließlich scheinen evcbx und fvcbx Ausgabeorte für die Erweiterung der ursprünglichen Vokabeldateien durch Verkettung zu sein.
Ich hoffe, das hilft, und ich hoffe, dass jemand anderes, der MGIZA verwendet hat, einspringen und mich korrigieren kann, wenn ich falsch liege.