質問

日本語からの翻訳がどのような英単語になるかを見積もる方法を考えています。日本語には3つの主要なスクリプトがあります-漢字ひらがな、およびカタカナ-それぞれの平均文字対単語比が異なります(漢字が最低、カタカナが最高)。

例:

  • コンピューター:コンピュータ (カタカナ-6 文字); 計算機 (漢字:3 文字)
  • クジラ:くじら (ひらがな- 3文字); 鯨 (漢字:1 文字)

データとして、私は日本語の単語とその英語の翻訳の大きな用語集と、一致する日本語のソース文書とその英語の翻訳のかなり大きなコーパスを持っています。ソーステキスト内の漢字、ひらがな、カタカナの文字数をカウントし、これが変換される可能性が高い英語の単語の数を推定する数式を考えたいと思います。

役に立ちましたか?

解決

線形近似から始めます: approx_english_words = a1 * no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3 、線形最小二乗法を使用してデータから係数a1、a2、a3を近似します。

これがあまりよく近似していない場合は、合わない理由(特殊な単語など)で最悪の場合を見てください。

他のヒント

以下は、Borland(現在のEmbarcadero)が英語から非英語について考えるものです:

英語文字列の長さ(文字数)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

これを(多少の修正を加えて)日本語から日本語以外に適用できると思います。

考慮したい別の要素は、言語のトーンです。英語では、指示は「Press OK」のように命令として表現されます。しかし、日本語では、命令は失礼と見なされ、「OK」#12508;タンを押し& #12390;ください。"

3文字の漢字コンボに注意してください。大きな単語の多くは、国際化(国際化:20文字)、高可用&#などの3文字または4文字の漢字コンボに変換されます24615;(高可用性:17文字)。

翻訳者およびローカライズのスペシャリストとしての私の経験では、経験則として、英語の単語ごとに2文字の日本語文字を使用するのが適切です。

日本語と英語の間の経験豊富な翻訳者として、これを定量化することは非常に難しいと言えますが、通常、私の経験では、日本語から翻訳された英語のテキストはソーステキストの200%近くの文字です。日本語には、文化的に特定のフレーズや名詞が数多くありますが、これらは文字通り翻訳できず、英語で説明する必要があります。 翻訳するとき、意味を読者に伝えるために、日本語の文章を1つ取り出し、その中から1つの英語の段落を作成することは珍しくありません。ここに一番上の例があります:

「懐かしい」

これは文字通り懐かしいことを意味します。ただし、日本語では感嘆符の1つのフレーズとして使用できます。しかし、英語では懐かしさを伝えるために、より多くの文脈が必要です。たとえば、その単一のフレーズを文に変換する必要がある場合があります。

"古い小学校のそばを歩いていると、過去の思い出があふれました。

これが、日本語と英語の機械翻訳が不可能な理由です。

まあ、それは英語に比べて名詞の文字数よりも少し複雑です。たとえば、日本語は英語と比較して文法構造が異なるため、特定の文は日本語でより多くの単語を使用します。少ない単語を使用します。私は本当に日本語を知らないので、例として韓国語を使用することを許してください。

韓国語では、主に文脈を使用して不足している単語を埋めることにより短くなるという事実により、文は英語の文よりも短いことがよくあります。たとえば、「愛しています」と言うと、 사랑해と同じくらい短い場合があります(「sarang hae」、単に「love」という動詞)、または完全に修飾された文である限り저는 당신을 살앙해요 (私は[トピック]あなた[オブジェクト]愛[動詞+丁寧な修飾語]。テキストの記述方法は文脈によって異なります。文脈は通常、段落の前の文で設定されます。

とにかく、この種のことを実際に知るためのアルゴリズムを持つことは非常に難しいので、統計を使用するだけで、おそらくはるかに良いでしょう。すべきことは、既知の日本語テキストと英語テキストが同じ意味を持つランダムサンプルを使用することです。サンプルが大きければ大きいほど(そしてランダムであるほど)良いことになります。ただし、サンプルが本当にランダムであれば、数百を超えた数に大きな違いはありません。

今、もう1つのことは、この比率が翻訳されるテキストのタイプによって完全に変わることです。たとえば、高度に技術的なドキュメントは、ずさんな小説よりもはるかに高い日本語/英語の長さの比率を持つ可能性が非常に高いです。

単語から単語への翻訳の辞書を単に使用することに関しては、おそらくうまく機能しないでしょう(そしておそらく間違っています)。同じ単語が異なる言語で毎回同じ単語に翻訳されるわけではありません(ただし、技術的な議論で発生する可能性は非常に高くなります)。たとえば、美しいという言葉。韓国語で割り当てることができる単語は1つだけではありません(つまり、選択肢があります)が、文章(食べ物が美しい)のように、食べ物が見えるという意味ではない場合があります。良い。私はそれが良い味であり、その単語の翻訳の私のオプションが変わることを意味します。これは非常に一般的な状況です。

別の大きな問題は最適な翻訳です。人間が本当に苦手なこと、コンピューターが非常に悪いこと。他のテキストから英語に翻訳されたドキュメントを校正したときはいつでも、ずっと短くカットするためのさまざまな方法を常に見ることができます。

したがって、統計情報を使用すると、翻訳間の長さのかなり良い平均比を算出できますが、これはすべての翻訳が最適である場合とは大きく異なります。

それは十分に単純なようです-比率を見つける必要があります。

スクリプトごとに、用語集のスクリプト文字と英単語の数を数え、比率を計算します。

これは、日本語のソース文書で補強することができます仮定、日本語の単語が含まれているスクリプトと、翻訳に含まれる英語の同等のフレーズを検出できます。それ以外の場合、比率を推測するか、ソースデータとしてこれを無視する必要があります。

次に、あなたが言うように、ソーステキストの各スクリプト内の単語の数を数え、乗算を実行します。おおよその見積もりが必要です。

私の(とはいえ小さな)経験は、言語が何であれ、テキストのブロックが同等の情報を伝えるために同じ量の印刷スペースを取ることを示しているようです。したがって、テキストの大きなブロックの場合、英語の各文字に幅カウントを割り当て(Times New Romanのような一般的なフォントからこれをつかみます)、同様に同じポイントサイズで一般的な日本語フォントを使用して、必要な文字数。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top