我正在尝试想出一种方法来估计日语翻译将变成的英语单词的数量。日语有三种主要文字—— 汉子, 平假名, , 和 片假名 ——并且每个都有不同的平均字符与单词的比率(汉字最低,片假名最高)。

例子:

  • 电脑:コンピュータ(Katakana -6个字符);计算机(汉字:3个字符)
  • 鲸:くじら(Hiragana- 3个字符);鲸(汉字:1个字符)

作为数据,我有大量日语单词及其英语翻译的词汇表,以及相当大的匹配日语源文档及其英语翻译的语料库。我想提出一个公式来计算源文本中的汉字、平假名和片假名字符的数量,并估计这可能会变成的英语单词的数量。

有帮助吗?

解决方案

我将从线性近似开始: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, ,系数 a1、a2、a3 使用线性最小二乘法根据数据进行拟合。

如果这不太近似,那么看看最坏的情况,找出它们不适合的原因(专业词等)。

其他提示

以下是 Borland(现在的 Embarcadero)对英语到非英语的看法:

英文字符串长度(以字符为单位)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我认为你可以将这个(经过一些修改)应用于日语和非日语。

您可能需要考虑的另一个因素是语言的语气。在英语中,指示是当务之急,如“ press ok”。但是在日语中,必须将其视为粗鲁,您必须用“ ok ok”ボタンボタン押して。ください。。ください。。ください。ください。。。ください。。ください

注意三个字母的汉字组合。许多大词翻译成三或四个字母的汉字组合,例如国际化(国际化:20 个字符),高可用性(高可用性:17 个字符)。

根据我作为翻译和本地化专家的经验,一个好的经验法则是每个英文单词 2 个日语字符。

作为一名经验丰富的日语和英语翻译人员,我可以说这是极其难以量化的,但根据我的经验,从日语翻译成的英语文本的字符数通常接近源文本的 200%。日语中有许多文化特定的短语和名词无法按字面翻译,需要用英语解释。在翻译时,为了将意思传达给读者,我会采用一个日语句子并从中组成一个英语段落,这并不罕见。我这里的顶部是一个例子:

「懐かしい」

这字面意思就是怀旧。然而,在日语中它可以用作感叹词中的单个短语。然而,在英语中,为了传达怀旧之情,我们需要更多的上下文。例如,您可能需要将单个短语变成一个句子:

“当我走过我以前的小学时,我对过去的回忆如潮水般涌来。”

这就是为什么日语和英语之间的机器翻译是不可能的。

嗯,与英语相比,它比名词中的字符数要复杂一些,例如,日语与英语相比也有不同的语法结构,因此某些句子会使用日语中的更多单词,而其他句子会使用更少的单词。我不太懂日语,所以请原谅我用韩语作为例子。

在韩语中,句子通常比英语句子短,主要是因为它们是通过使用上下文来填补缺失的单词而被缩短的。例如,说“我爱你”可以短至 사랑해(“sarang hae”,简单的动词“爱”),或者长至完全限定句子 저는 당신을 살앙해요(我 [主题] 你 [对象] ] 爱[动词+礼貌修饰语]。在文本中,如何书写取决于上下文,通常由段落中较早的句子设置。

不管怎样,拥有一个算法来真正了解这种事情是非常困难的,所以你可能会更好,只使用统计数据。您应该做的是使用随机样本,其中已知的日语文本和英语文本具有相同的含义。样本越大(随机性越大)越好......但如果它们确实是随机的,那么超过几百个就没有多大区别了。

现在,另一件事是这个比率会根据所翻译的文本类型而完全改变。例如,技术含量高的文档很可能比伤感的小说具有更高的日语/英语长度比。

至于简单地使用你的单词到单词翻译词典 - 这可能不会很好地工作(并且可能是错误的)。同一个单词不会每次用不同的语言翻译成同一个单词(尽管在技术讨论中更可能发生)。例如,美丽这个词。在韩语中,我可以将其分配给的词不仅不止一个(即有一个选择),但有时我会失去这个选择,就像在句子(食物很漂亮)中一样,我并不是说食物看起来不错。我的意思是它味道很好,而且我对这个词的翻译选择发生了变化。这是一种非常常见的情况。

另一个大问题是最优翻译。这是人类真正不擅长的事情,而计算机则更不擅长。每当我校对从另一种文本翻译成英文的文档时,我总能找到各种方法来缩短它。

因此,尽管通过统计数据,您可以计算出翻译之间相当好的平均长度比率,但这将与所有翻译都是最佳的情况有很大不同。

这看起来很简单——你只需要找出比率即可。

对于每个脚本,计算词汇表中的脚本字符数和英语单词数,并计算出比例。

这可以通过日语源文档进行补充 假设 您可以检测日语单词所在的脚本以及翻译中对应的英语短语是什么。否则你将不得不猜测比率或忽略它作为源数据,

然后,正如您所说,计算源文本每个脚本中的单词数,进行乘法运算,您应该有一个粗略的估计。

我(尽管很小)的经验似乎表明,无论使用什么语言,文本块都需要相同数量的印刷空间来传达相同的信息。因此,对于较大的文本块,您可以为英文中的每个字符分配一个宽度计数(从 Times New Roman 等常见字体中获取),同样使用相同点大小的常见日语字体来计算所需的字符数。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top