从日语源中估计英语翻译单词数量的算法

https://stackoverflow.com/questions/145190

02-07-2019
|

题

我正在尝试想出一种方法来估计日语翻译将变成的英语单词的数量。日语有三种主要文字—— 汉子, 平假名, ，和片假名 ——并且每个都有不同的平均字符与单词的比率（汉字最低，片假名最高）。

例子：

电脑：コンピュータ（Katakana -6个字符）；计算机（汉字：3个字符）
鲸：くじら（Hiragana- 3个字符）；鲸（汉字：1个字符）

作为数据，我有大量日语单词及其英语翻译的词汇表，以及相当大的匹配日语源文档及其英语翻译的语料库。我想提出一个公式来计算源文本中的汉字、平假名和片假名字符的数量，并估计这可能会变成的英语单词的数量。

解决方案

我将从线性近似开始： approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, ，系数 a1、a2、a3 使用线性最小二乘法根据数据进行拟合。

如果这不太近似，那么看看最坏的情况，找出它们不适合的原因（专业词等）。

其他提示

以下是 Borland（现在的 Embarcadero）对英语到非英语的看法：

英文字符串长度（以字符为单位）

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我认为你可以将这个（经过一些修改）应用于日语和非日语。

您可能需要考虑的另一个因素是语言的语气。在英语中，指示是当务之急，如“ press ok”。但是在日语中，必须将其视为粗鲁，您必须用“ ok ok”ボタンボタン押して。ください。。ください。。ください。ください。。。ください。。ください

注意三个字母的汉字组合。许多大词翻译成三或四个字母的汉字组合，例如国际化（国际化：20 个字符），高可用性（高可用性：17 个字符）。

根据我作为翻译和本地化专家的经验，一个好的经验法则是每个英文单词 2 个日语字符。

作为一名经验丰富的日语和英语翻译人员，我可以说这是极其难以量化的，但根据我的经验，从日语翻译成的英语文本的字符数通常接近源文本的 200%。日语中有许多文化特定的短语和名词无法按字面翻译，需要用英语解释。在翻译时，为了将意思传达给读者，我会采用一个日语句子并从中组成一个英语段落，这并不罕见。我这里的顶部是一个例子：

「懐かしい」

这字面意思就是怀旧。然而，在日语中它可以用作感叹词中的单个短语。然而，在英语中，为了传达怀旧之情，我们需要更多的上下文。例如，您可能需要将单个短语变成一个句子：

“当我走过我以前的小学时，我对过去的回忆如潮水般涌来。”

这就是为什么日语和英语之间的机器翻译是不可能的。

嗯，与英语相比，它比名词中的字符数要复杂一些，例如，日语与英语相比也有不同的语法结构，因此某些句子会使用日语中的更多单词，而其他句子会使用更少的单词。我不太懂日语，所以请原谅我用韩语作为例子。

在韩语中，句子通常比英语句子短，主要是因为它们是通过使用上下文来填补缺失的单词而被缩短的。例如，说“我爱你”可以短至 사랑해（“sarang hae”，简单的动词“爱”），或者长至完全限定句子 저는 당신을 살앙해요（我 [主题] 你 [对象] ] 爱[动词+礼貌修饰语]。在文本中，如何书写取决于上下文，通常由段落中较早的句子设置。

不管怎样，拥有一个算法来真正了解这种事情是非常困难的，所以你可能会更好，只使用统计数据。您应该做的是使用随机样本，其中已知的日语文本和英语文本具有相同的含义。样本越大（随机性越大）越好......但如果它们确实是随机的，那么超过几百个就没有多大区别了。

现在，另一件事是这个比率会根据所翻译的文本类型而完全改变。例如，技术含量高的文档很可能比伤感的小说具有更高的日语/英语长度比。

至于简单地使用你的单词到单词翻译词典 - 这可能不会很好地工作（并且可能是错误的）。同一个单词不会每次用不同的语言翻译成同一个单词（尽管在技术讨论中更可能发生）。例如，美丽这个词。在韩语中，我可以将其分配给的词不仅不止一个（即有一个选择），但有时我会失去这个选择，就像在句子（食物很漂亮）中一样，我并不是说食物看起来不错。我的意思是它味道很好，而且我对这个词的翻译选择发生了变化。这是一种非常常见的情况。

另一个大问题是最优翻译。这是人类真正不擅长的事情，而计算机则更不擅长。每当我校对从另一种文本翻译成英文的文档时，我总能找到各种方法来缩短它。

因此，尽管通过统计数据，您可以计算出翻译之间相当好的平均长度比率，但这将与所有翻译都是最佳的情况有很大不同。

这看起来很简单——你只需要找出比率即可。

对于每个脚本，计算词汇表中的脚本字符数和英语单词数，并计算出比例。

这可以通过日语源文档进行补充假设您可以检测日语单词所在的脚本以及翻译中对应的英语短语是什么。否则你将不得不猜测比率或忽略它作为源数据，

然后，正如您所说，计算源文本每个脚本中的单词数，进行乘法运算，您应该有一个粗略的估计。

我（尽管很小）的经验似乎表明，无论使用什么语言，文本块都需要相同数量的印刷空间来传达相同的信息。因此，对于较大的文本块，您可以为英文中的每个字符分配一个宽度计数（从 Times New Roman 等常见字体中获取），同样使用相同点大小的常见日语字体来计算所需的字符数。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow