Может ли кто -нибудь объяснить, как работает этот сценарий Mgiza?
-
28-10-2019 - |
Вопрос
$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files
Может ли кто -нибудь объяснить, какие входные данные All Acrane для сценария Plain2snt? Сценарий из программы Mgiza ++ для выравнивания слов из http://geek.kyloo.net/software/doku.php/mgiza:forcealenment
evcb =? #It It в файле Source.vcb? fvcb =? #It It в файле Target.vcb?
esnt (out) =? fsnt (out) =?
evcbx (out) =? fvcbx (out) =?
ОТВЕЧАТЬ
Мне удалось заставить его работать
$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt
Решение
Основываясь на моем (не эквивалентном) опыте работы с Giza ++ и страницей, на которую вы ссылаетесь, я бы сказал, что EVCB и FVCB - это «английский» и «иностранные» файлы Vocab, которые вы уже сгенерировали, и что ETXT и FTXT - это «английский». и «иностранные» текстовые вводы. Тогда кажется, что ESNT и FSNT являются «английскими» и «иностранными» выходными файлами предложений (вероятно, предложения со словами, замененными их уникальными идентификаторами из файлов VCB). Наконец, EVCBX и FVCBX, по -видимому, являются выводами для расширения исходных словарных файлов с помощью Concatenation.
Я надеюсь, что это поможет, и я надеюсь, что кто -то еще, кто использовал Mgiza, может прыгнуть и исправить меня, если я ошибаюсь.