Pregunta

Estoy tratando de encontrar una manera de calcular la cantidad de palabras en inglés en que se convertirá una traducción del japonés. El japonés tiene tres scripts principales: Kanji , Hiragana , y Katakana - y cada uno tiene una proporción promedio de caracteres a palabra diferente (Kanji es el más bajo, Katakana el más alto).

Ejemplos :

  • computadora: & # 12467; & # 12531; & # 12500; & # 12517; & # 12540; & # 12479; (Katakana - 6 caracteres); & # 35336; & # 31639; & # 27231; (Kanji: 3 caracteres)
  • ballena: & # 12367; & # 12376; & # 12425; (Hiragana - 3 caracteres); & # 39912; (Kanji: 1 carácter)

Como datos, tengo un gran glosario de palabras japonesas y sus traducciones al inglés, y un corpus bastante grande de documentos originales en japonés y sus traducciones al inglés. Quiero crear una fórmula que cuente la cantidad de caracteres Kanji, Hiragana y Katakana en un texto de origen, y calcule la cantidad de palabras en inglés que probablemente se convertirá.

¿Fue útil?

Solución

Comenzaría con una aproximación lineal: approx_english_words = a1 * no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3 , con los coeficientes a1, a2, a3 de sus datos utilizando los mínimos cuadrados lineales.

Si esto no se aproxima muy bien, entonces mire los casos peores por las razones por las cuales no encajan (palabras especializadas, etc.).

Otros consejos

Esto es lo que Borland (ahora Embarcadero) piensa acerca del inglés al no inglés:

Longitud de la cadena en inglés (en caracteres)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Creo que puedes aplicar esto (con algunas modificaciones) para japoneses a no japoneses.

Otro elemento que quizás quieras considerar es el tono del idioma. En inglés, las instrucciones están redactadas como un imperativo como en " Presione OK. & Quot; Pero en el idioma japonés, los imperativos se consideran groseros, y debe expresar las instrucciones en honorífico (o keigo) como en " OK & # 12508; & # 12479; & # 12531; & # 12434; & # 25276; & # 12375; & # 12390; & # 12367; & # 12384; & # 12373; & # 12356; & # 12290; "

Cuidado con los combos de kanji de tres letras. Muchas de las palabras grandes se traducen en combo kanji de tres o cuatro letras, como & # 22269; & # 38555; & # 21270; (internacionalización: 20 caracteres), & # 39640; & # 21487; & # 29992; & # 24615; (alta disponibilidad: 17 caracteres).

En mi experiencia como traductor y especialista en localización, una buena regla general es de 2 caracteres japoneses por palabra en inglés.

Como traductor experimentado entre japonés e inglés, puedo decir que esto es extremadamente difícil de cuantificar, pero en mi experiencia, el texto en inglés traducido del japonés es casi el 200% de los caracteres que el texto de origen. En japonés hay muchas frases y sustantivos culturalmente específicos que no pueden traducirse literalmente y necesitan ser explicados en inglés. Al traducir, no es inusual para mí tomar una sola oración japonesa y hacer un solo párrafo en inglés con el fin de que el significado se comunique al lector. Fuera de la parte superior de mi aquí hay un ejemplo:

& # 12300; & # 25040; & # 12363; & # 12375; & # 12356; & # 12301;

Esto significa literalmente nostálgico. Sin embargo, en japonés se puede utilizar como una sola frase en una exclamación. Sin embargo, en inglés, para transmitir un sentimiento de nostalgia, necesitamos mucho más contexto. Por ejemplo, es posible que deba convertir esa sola frase en una oración:

" Mientras caminaba por mi antigua escuela primaria, me inundaron los recuerdos del pasado. "

Es por esto que la traducción automática entre japonés e inglés es imposible.

Bueno, es un poco más complejo que solo la cantidad de caracteres en un sustantivo en comparación con el inglés, por ejemplo, el japonés también tiene una estructura gramatical diferente en comparación con el inglés, por lo que ciertas oraciones usarían MÁS palabras en japonés, y otras lo harían Usa MENOS palabras. Realmente no sé japonés, así que perdóname por usar el coreano como ejemplo.

En coreano, una oración suele ser más corta que una oración en inglés, debido principalmente al hecho de que se acortan al usar el contexto para completar las palabras que faltan. Por ejemplo, decir "te amo" podría ser tan corto como & # 49324; & # 46993; & # 54644; (" sarang hae " ;, simplemente el verbo " amor "), o siempre que la oración esté completamente calificada & # 51200; & # 45716; & # 45817; & # 49888; & # 51012; & # 49332; & # 50521; & # 54644; & # 50836; (Yo [tema] a usted [objeto] le encanta [verbo + modificador cortés]. En un texto, la forma en que se escribe depende del contexto, que generalmente se establece mediante oraciones anteriores en el párrafo.

De todos modos, tener un algoritmo para SABER realmente este tipo de cosas sería muy difícil, así que probablemente estés mucho mejor, solo usando estadísticas. Lo que debe hacer es usar muestras aleatorias donde los textos japoneses conocidos y los textos en inglés tengan el mismo significado. Cuanto más grande sea la muestra (y cuanto más aleatoria sea), mejor ... aunque si son realmente aleatorias, no habrá mucha diferencia en la cantidad que hayas pasado unos pocos cientos.

Ahora, otra cosa es que esta proporción cambiaría completamente en el tipo de texto que se está traduciendo. Por ejemplo, es muy probable que un documento altamente técnico tenga una relación de longitud japonesa / inglesa mucho mayor que una novela soppy.

En cuanto a simplemente usar su diccionario de traducciones palabra a palabra, probablemente no funcionará bien (y probablemente esté mal). La misma palabra no se traduce a la misma palabra cada vez en un idioma diferente (aunque es mucho más probable que ocurra en las discusiones técnicas). Por ejemplo, la palabra hermosa. No hay más de una palabra a la que podría asignarle en coreano (es decir, hay una opción), pero a veces pierdo esa opción, como en la oración (que la comida es hermosa), donde no me refiero a la apariencia de la comida. bueno. Quiero decir que sabe bien, y mi opción de traducción para esa palabra cambia. Y esta es una circunstancia MUY común.

Otro gran problema es la traducción óptima. Algo que los humanos son realmente malos, y algo en lo que las computadoras son mucho peores. Cada vez que he corregido un documento traducido de otro texto al inglés, puedo ver varias formas de cortarlo mucho más corto.

Por lo tanto, aunque con las estadísticas, podría calcular una proporción promedio bastante buena entre las traducciones, esto será muy diferente de lo que sería si todas las traducciones fueran óptimas.

Parece bastante simple, solo necesitas averiguar las proporciones.

Para cada script, cuente el número de caracteres de script y las palabras en inglés en su glosario y calcule la proporción.

Esto se puede aumentar con los documentos de origen japoneses suponiendo que ambos pueden detectar en qué script se encuentra una palabra japonesa y cuál es la frase equivalente en inglés en la traducción. De lo contrario, tendrá que estimar las proporciones o ignorar esto como datos de origen,

Luego, como usted dice, cuente el número de palabras en cada secuencia de comandos de su texto de origen, haga las multiplicaciones y debería tener una estimación aproximada.

Mi (aunque pequeña) experiencia parece indicar que, sin importar el idioma, los bloques de texto toman la misma cantidad de espacio impreso para transmitir información equivalente. Por lo tanto, para un bloque de texto de gran tamaño, puede asignar un recuento de ancho a cada carácter en inglés (tome esto de una fuente común como Times New Roman), y también use una fuente japonesa común en el mismo tamaño de punto para calcular el número de caracteres que se requerirían.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top