Pregunta

$:~/mgizapp/scripts$ ./plain2snt-hasvcb.py
Error, the input should be 
./plain2snt-hasvcb.py evcb fvcb etxt ftxt esnt(out) fsnt(out) evcbx(out) fvcbx(out)
You should concatenate the evcbx and fvcbx to existing vcb files

¿Alguien puede explicar cuáles son todas las entradas de Acrane para el script Plain2Snt? El script es del programa MGIZA ++ para la alineación de palabras desde http://geek.kyloo.net/software/doku.php/mgiza:forceLignment

evcb =? #¿Es el archivo Source.vcb? fvcb =? #¿Es el archivo Target.vcb?

esnt (out) =? fsnt (out) =?

evcbx (out) =? fvcbx (out) =?

RESPONDER

Me las arreglé para que funcionara

$mkcls -n10 -psourcelangfile.vcb -Vsourcelangfile.vcb.classes
$mkcls -n10 -psourcelangfile.vcb -Vtargetlangfile.vcb.classes
$plain2snt sourcelangfile targetlangfile
$snt2cooc sourcelang_targetlang.cooc sourcelangfile.vcb targetlangfile.vcb sourcelangfile_targetlangfile.snt
¿Fue útil?

Solución

Basado en mi experiencia (no equivalente) con GIZA ++ y en la página a la que enlace, diría que EVCB y FVCB son los archivos de vocabulario "inglés" y "extranjeros" que ya ha generado y que Etxt y FTXT son los "inglés" y entradas de texto "extranjeras". Parece entonces que ESNT y FSNT son los archivos de salida de oraciones "inglés" y "extranjeros" (probablemente las oraciones con las palabras reemplazadas por sus identificadores únicos de los archivos VCB). Finalmente, EVCBX y FVCBX parecen ser ubicaciones de salida para extender los archivos de vocabulario originales por concatenación.

Espero que esto ayude, y espero que alguien más que haya usado Mgiza pueda saltar y corregirme si me equivoco.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top