Может ли кто -нибудь объяснить, как работает этот сценарий Mgiza?

https://stackoverflow.com/questions/5375980

28-10-2019
|

Вопрос

$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be 
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files

Может ли кто -нибудь объяснить, какие входные данные All Acrane для сценария Plain2snt? Сценарий из программы Mgiza ++ для выравнивания слов из http://geek.kyloo.net/software/doku.php/mgiza:forcealenment

evcb =? #It It в файле Source.vcb? fvcb =? #It It в файле Target.vcb?

esnt (out) =? fsnt (out) =?

evcbx (out) =? fvcbx (out) =?

ОТВЕЧАТЬ

Мне удалось заставить его работать

$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt

Решение

Основываясь на моем (не эквивалентном) опыте работы с Giza ++ и страницей, на которую вы ссылаетесь, я бы сказал, что EVCB и FVCB - это «английский» и «иностранные» файлы Vocab, которые вы уже сгенерировали, и что ETXT и FTXT - это «английский». и «иностранные» текстовые вводы. Тогда кажется, что ESNT и FSNT являются «английскими» и «иностранными» выходными файлами предложений (вероятно, предложения со словами, замененными их уникальными идентификаторами из файлов VCB). Наконец, EVCBX и FVCBX, по -видимому, являются выводами для расширения исходных словарных файлов с помощью Concatenation.

Я надеюсь, что это поможет, и я надеюсь, что кто -то еще, кто использовал Mgiza, может прыгнуть и исправить меня, если я ошибаюсь.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow