Frage

Ich versuche, einen Weg zu kommen, die Anzahl von englischen Wörtern eine Übersetzung aus dem Japanischen zu schätzen verwandelt sich in. Japaner hat drei Haupt Skripte - Kanji , Hiragana und Katakana -. und weisen jeweils ein unterschiedliches durchschnittliches Zeichen-zu-Wort-Verhältnis (Kanji die niedrigste, Katakana das höchste)

Beispiele:

  • Computer: コ ン ピ ュ ー タ (Katakana - 6 Figuren);計算機 (Kanji: 3 Zeichen)
  • Wal: く じ ら (Hiragana - 3 Zeichen);鯨 (Kanji: 1 Zeichen)

Da die Daten, ich habe ein großes Glossar der japanischen Worte und ihre Übersetzungen und einen ziemlich großen Korpus abgestimmt japanische Quelldokumente und die Übersetzungen. Ich möchte mit einer Formel zu entwickeln, die in Zahlen von Kanji, Hiragana und Katakana-Zeichen in einem Quelltext und schätzen die Zahl der englischen Wörter dies wahrscheinlich drehen zählen wird.

War es hilfreich?

Lösung

würde ich mit linearer Annäherung beginnen: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, mit den Koeffizienten a1, a2, a3 Sitz von Daten unter Verwendung eines linearen kleinste Quadrate.

Wenn dies nicht sehr gut annähern, dann schauen Sie sich den schlimmsten Fällen aus den Gründen, sie passen nicht (Fachwörter, usw.).

Andere Tipps

Hier ist, was Borland (jetzt Embarcadero) denkt über English Nicht-Englisch:

Länge der englischen Zeichenfolge (in Zeichen)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Ich glaube, Sie können Art, dies gelten (mit einigen Änderungen) für Japanisch in Nicht-Japaner.

Ein weiteres Element Sie vielleicht zu prüfen, ist der Ton der Sprache. In Englisch werden Befehle als Imperativ wie in umschriebenen „Drücken Sie OK.“ Aber in der japanischen Sprache sind Imperative als unhöflich, und Sie müssen Phrase Anweisungen in honorific (oder keigo), wie in "OK ボ タ ン を 押 し て く だ さ い."

Achten Sie auf Drei-Buchstaben-Kanji-Combos. Viele der großen Worte übersetzen in drei- oder vier Buchstaben Kanji-Combo wie 国際 化 (Internationalisierung: 20 Zeichen), 高 可用性 (hohe Verfügbarkeit: 17 Zeichen).

Nach meiner Erfahrung als Übersetzer und Lokalisierungsspezialist eine gute Faustregel 2 japanische Zeichen pro englisches Wort.

Als erfahrenen Übersetzer zwischen Japanisch und Englisch, ich kann sagen, dass diese extrem schwer zu quantifizieren, aber in der Regel in meiner Erfahrung englischer Text aus dem Japanischen übersetzt ist fast 200% so viele Zeichen wie der Quelltext. In der japanischen gibt es viele kulturspezifische Phrasen und Substantive, die nicht wörtlich übersetzt werden können und müssen in englischer Sprache erklärt werden. Bei der Übersetzung ist es nicht ungewöhnlich für mich einen einzigen japanischen Satz zu nehmen und einen einzigen englischen Absatz aus ihn zu machen, um für die Bedeutung des Leser mitgeteilt werden. Aus der Spitze von meiner hier ein Beispiel:

「懐 か し い」

Das bedeutet wörtlich nostalgisch. Es kann jedoch in Japanisch als einzigen Satz in einem Ausrufungs verwendet werden. Doch in Englisch, um ein Gefühl der Nostalgie zu vermitteln, benötigen wir viel mehr Kontext. Zum Beispiel müssen Sie möglicherweise, dass die einzigen Satz in einen Satz drehen:

„Als ich von meiner alten Grundschule ging, habe ich mit der Erinnerung an die Vergangenheit überflutet wurde.“

Aus diesem Grunde ist die maschinelle Übersetzung zwischen Japanisch und Englisch unmöglich ist.

Nun, es ein wenig komplizierter ist als nur die Anzahl der Zeichen in einem Nomen auf Englisch im Vergleich zum Beispiel Japanisch hat auch eine andere grammatische Struktur im Vergleich zu Englisch, so dass bestimmte Sätze mehr Worte in der japanischen verwenden würden, und andere würden verwenden Sie weniger Wörter. Ich weiß nicht wirklich wissen, Japanisch, so verzeihen Sie mir bitte für die Verwendung von koreanischen als Beispiel.

In Koreanisch, ein Satz ist oft kürzer als ein englischer Satz, vor allem auf die Tatsache, dass sie kurz geschnitten werden durch Zusammenhang mit den fehlenden Worten zu füllen. Zum Beispiel sagen: „Ich liebe dich“, wie 사랑해 so kurz sein könnte ( „sarang hae“, einfach das Verb „lieben“), oder solange der voll qualifizierte Satz 저는 당신 을 살앙 해요 (I [Thema] Sie [Objekt ] love [verb + höflich Modifikator]. in einem Text, wie es vom Kontext abhängig geschrieben wird, die in der Regel von früheren Sätzen im Absatz.

gesetzt

Wie auch immer, einen Algorithmus zu müssen wirklich wissen, diese Art der Sache sehr schwierig sein würde, so dass Sie wahrscheinlich viel besser dran sind, nur Statistiken verwenden. Was Sie tun sollten, Stichproben verwenden, bei denen die bekannten japanischen Texten und englischen Texte die gleiche Bedeutung haben. Je größer die Probe (und je mehr zufällig ist), desto besser ... aber wenn sie wirklich zufällig sind, wird es nicht viel Unterschied machen, wie viele Sie haben Vergangenheit ein paar hundert.

Jetzt ist eine andere Sache, dieses Verhältnis ganz auf die Art des Textes übersetzt ändern würde. Zum Beispiel ist sehr technisches Dokument sehr wahrscheinlich ein viel höheres Japanisch / Englisch Längenverhältnis als ein soppy Roman haben.

Was einfach Ihr Wörterbuch von Wort zu Wort Übersetzungen mit - das wird wahrscheinlich nicht gut funktionieren (und ist wahrscheinlich falsch). Das gleiche Wort übersetzt nicht auf das gleiche Wort jedes Mal in einer anderen Sprache (wenn auch viel eher in technischen Diskussionen geschehen). Zum Beispiel das Wort schön. Es gibt nicht nur mehr als ein Wort, das ich es in der koreanischen zuweisen könnte (dh es ist eine Wahl), aber manchmal verliere ich diese Wahl, wie in dem Satz (das Essen ist schön), wo ich meine nicht die Nahrung aussieht gut. Ich meine, es schmeckt gut, und meine Möglichkeit, Übersetzungen für das Wort ändert. Und das ist eine sehr häufige Situation.

Ein weiteres großes Problem ist die optimale Übersetzung. Etwas, das menschliche wirklich schlecht sind, und etwas, das Computer sind viel, viel schlimmer. Jedes Mal, wenn ich ein Dokument von einem anderen Text ins Englische übersetzt Korrektur gelesen habe, kann ich immer verschiedene Möglichkeiten sieht es viel, viel kürzer zu schneiden.

Obwohl also, mit Statistiken, wäre in der Lage Sie ein ziemlich gutes durchschnittliches Verhältnis in der Länge zwischen Übersetzungen zu arbeiten, wird dies ganz anders sein, als es alle Übersetzungen wäre waren optimal.

Es scheint einfach genug -. Sie müssen nur die Verhältnisse herauszufinden

Für jedes Skript, zählt die Anzahl der Schriftzeichen und englische Worte in Ihrem Glossar und das Verhältnis trainieren.

Dies kann mit den japanischen Quelldokumenten erweitert werden unter der Annahme, können Sie beide erkennen, welche Skript ein japanisches Wort ist in und was der englischen äquivalent Satz ist in der Übersetzung. Ansonsten werden Sie die Verhältnisse oder ignorieren diese als Quelldaten guesstimate müssen,

Dann, wie Sie sagen, die Anzahl der Wörter in jedem Skript von Rohtext zählen, tun die vervielfacht, und Sie sollten eine grobe Schätzung haben.

My (wenn auch kleine) Erfahrung scheint zu zeigen, egal, was die Sprache, Textblocks die gleiche Menge an gedruckten Platz nehmen gleichwertige Informationen zu vermitteln. Also, für einen großen ish Textblock, könnten Sie eine Breite Zahl auf jedes Zeichen in Englisch (greifen diese von einer gemeinsamen Schriftart wie Times New Roman), weisen ebenso eine gemeinsame japanische Schrift an der gleichen Stelle Größe verwenden, um die Berechnung Anzahl der Zeichen, die benötigt würden.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top