Question

J'essaie de trouver un moyen d'estimer le nombre de mots anglais transformés en traduction du japonais. Le japonais comporte trois scripts principaux: Kanji , Hiragana et Katakana - et chacun a un rapport moyen caractère-mot différent (Kanji étant le plus bas, Katakana le plus élevé).

Exemples:

  • ordinateur: ? ? ? ? Kat (Katakana - 6 personnages); (Kanji: 3 caractères)
  • baleine: ? ? (Hiragana - 3 caractères); (Kanji: 1 caractère)

En tant que données, j'ai un grand glossaire de mots japonais et leurs traductions en anglais, et un assez grand corpus de documents source japonais appariés et leurs traductions en anglais. Je souhaite proposer une formule qui comptera le nombre de caractères Kanji, Hiragana et Katakana dans un texte source, ainsi que le nombre de mots anglais transformés.

Était-ce utile?

La solution

Je commencerais par l'approximation linéaire: approx_english_words = a1 * no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3 , avec les coefficients a1, a2, a3 utilisant votre plus faible carré.

Si cela n’apparaît pas très bien, examinez les cas les plus défavorables pour les raisons pour lesquelles ils ne tiennent pas (mots spécialisés, etc.).

Autres conseils

Voici ce que Borland (maintenant Embarcadero) pense de l'anglais aux non-anglais:

Longueur de la chaîne anglaise (en caractères)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Je pense que vous pouvez en quelque sorte appliquer cela (avec quelques modifications) du japonais aux non-japonais.

Un autre élément à considérer est le ton de la langue. En anglais, les instructions sont formulées sous la forme d'un impératif, comme dans "Appuyez sur OK". Mais en japonais, les impératifs sont considérés comme impolis et vous devez formuler les instructions en majuscule (ou keigo) comme dans "OK" # 12508; & # 12479; & # 12531; & # 12434; & # 25276; & # 12375; & # 12390; & # 12367; & # 12384; & # 12373; & # 12356; & # 12290; "

Attention aux combos kanji de trois lettres. La plupart des gros mots sont traduits en combo kanji de trois ou quatre lettres, tels que & # 22269; & # 38555; & # 21270; (internationalisation: 20 caractères), & # 39640; & # 21487; & # 29992; & ### 24615; (haute disponibilité: 17 caractères).

D'après mon expérience de traducteur et de spécialiste en localisation, une règle de base est de 2 caractères japonais par mot anglais.

En tant que traducteur expérimenté entre le japonais et l'anglais, je peux dire que c'est extrêmement difficile à quantifier, mais, d'après mon expérience, le texte anglais traduit du japonais représente près de 200% du nombre de caractères du texte source. En japonais, de nombreuses expressions et noms culturellement spécifiques ne peuvent pas être traduits littéralement et doivent être expliqués en anglais. Lors de la traduction, il n’est pas inhabituel pour moi de prendre une seule phrase en japonais et d’en faire un seul paragraphe anglais afin que le sens soit communiqué au lecteur. Voici un exemple:

?

Cela signifie littéralement nostalgique. Cependant, en japonais, il peut être utilisé comme une seule phrase dans une exclamation. Cependant, en anglais, afin de transmettre un sentiment de nostalgie, nous avons besoin de beaucoup plus de contexte. Par exemple, vous devrez peut-être transformer cette phrase unique en une phrase:

"En passant devant mon ancienne école primaire, j'ai été inondé de souvenirs du passé."

C’est pourquoi la traduction automatique entre japonais et anglais est impossible.

Eh bien, c’est un peu plus complexe que le nombre de caractères d’un nom comparé à l’anglais, par exemple, le japonais a également une structure grammaticale différente de celle de l’anglais, de sorte que certaines phrases utilisent PLUS de mots en japonais, et d’autres utilisez MOINS de mots. Je ne connais pas vraiment le japonais, alors pardonnez-moi d'utiliser le coréen comme exemple.

En coréen, une phrase est souvent plus courte qu'une phrase en anglais, principalement en raison du fait qu'elle est raccourcie en utilisant un contexte pour compléter les mots manquants. Par exemple, en disant "je t'aime" pourrait être aussi court que & # 49324; & # 46993; & # 54644; ("sarang hae", simplement le verbe "aimer"), ou aussi longtemps que la phrase pleinement qualifiée & # 51200; & # 45716; & # 45817; & # 49888; & # 51012; & # 49332; & # 50521; & # 54644; & # 50836; (Je [sujet] vous [objet] aimez [verbe + modificateur poli]. Dans un texte, sa rédaction dépend du contexte, qui est généralement défini par les phrases précédentes du paragraphe.

Quoi qu’il en soit, il serait très difficile d’avoir un algorithme pour SAVOIR ce genre de chose, alors vous êtes probablement beaucoup mieux loti en utilisant simplement des statistiques. Ce que vous devriez faire est d'utiliser des échantillons aléatoires où les textes japonais connus et les textes anglais ont la même signification. Plus l'échantillon est grand (et plus il est aléatoire), mieux c'est ... quoiqu'ils soient vraiment aléatoires, le nombre de personnes que vous avez dépassées ne fera pas grande différence.

Maintenant, une autre chose est que ce rapport changerait complètement sur le type de texte en cours de traduction. Par exemple, un document hautement technique aura probablement un rapport de longueur japonais / anglais bien plus élevé qu’un roman soppy.

Pour ce qui est d’utiliser simplement votre dictionnaire de traduction mot à mot, cela ne fonctionnera probablement pas très bien (et est probablement faux). Le même mot ne se traduit pas toujours par le même mot dans une langue différente (bien qu'il soit beaucoup plus probable que cela se produise lors de discussions techniques). Par exemple, le mot beau. Il y a non seulement plus d'un mot auquel je pourrais l'assigner en coréen (c'est-à-dire qu'il y a un choix), mais parfois je perds ce choix, comme dans la phrase (que la nourriture est belle), où je ne veux pas dire que la nourriture a l'air bien. Je veux dire que ça goûte bien, et mon choix de traduction pour ce mot change. Et ceci est une circonstance TRÈS commune.

Un autre gros problème est la traduction optimale. Quelque chose pour lequel les humains sont vraiment mauvais, et pour lequel les ordinateurs sont bien pires. Chaque fois que j'ai relu un document traduit d'un autre texte en anglais, je peux toujours voir différentes façons de le réduire beaucoup plus rapidement.

Ainsi, même si, avec les statistiques, vous seriez en mesure d’établir un assez bon rapport de longueur moyenne entre les traductions, ce sera très différent de ce qui se passerait si toutes les traductions étaient optimales.

Cela semble assez simple: il vous suffit de connaître les ratios.

Pour chaque script, comptez le nombre de caractères de script et de mots anglais dans votre glossaire et calculez le rapport.

Cela peut être complété par les documents source japonais en supposant que vous puissiez détecter le script dans lequel se trouve un mot japonais et quelle est la phrase équivalente en anglais dans la traduction. Sinon, vous devrez évaluer les ratios ou les ignorer en tant que données source,

Puis, comme vous le dites, comptez le nombre de mots dans chaque script de votre texte source, effectuez les multiplications et vous devriez avoir une estimation approximative.

Mon expérience (bien que minuscule) semble indiquer que, quelle que soit la langue utilisée, les blocs de texte prennent la même quantité d'espace imprimé pour transmettre des informations équivalentes. Ainsi, pour un bloc de texte de grande taille, vous pouvez affecter un nombre de largeurs à chaque caractère en anglais (à l'aide d'une police courante telle que Times New Roman) et utiliser également une police japonaise commune à la même taille en points pour calculer nombre de caractères requis.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top