خوارزمية لتقدير عدد كلمات الترجمة الإنجليزية من المصدر الياباني

StackOverflow https://stackoverflow.com/questions/145190

سؤال

أحاول التوصل إلى طريقة لتقدير عدد الكلمات الإنجليزية التي ستتحول إليها الترجمة من اليابانية.اليابانية لديها ثلاثة نصوص رئيسية - كانجي, هيراغانا, ، و كاتاكانا - ولكل منها متوسط ​​مختلف لنسبة الأحرف إلى الكلمات (كانجي هو الأدنى، كاتاكانا هو الأعلى).

أمثلة:

  • حاسوب:コンピュータ (Katakana - 6 أحرف) ؛計算機 (كانجي:3 أحرف)
  • حوت:くじら (Hiragana - 3 أحرف) ؛鯨 (كانجي:1 شخصية)

كبيانات، لدي معجم كبير للكلمات اليابانية وترجماتها الإنجليزية، ومجموعة كبيرة إلى حد ما من المستندات المصدرية اليابانية المطابقة وترجماتها الإنجليزية.أريد التوصل إلى صيغة تحسب أعداد أحرف كانجي وهيراجانا وكاتاكانا في النص المصدر، وتقدر عدد الكلمات الإنجليزية التي من المحتمل أن يتحول إليها هذا الرقم.

هل كانت مفيدة؟

المحلول

سأبدأ بالتقريب الخطي: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, ، مع احتواء المعاملات a1 وa2 وa3 من بياناتك باستخدام المربعات الصغرى الخطية.

إذا لم يكن هذا تقريبيًا جيدًا، فانظر إلى أسوأ الحالات للأسباب التي لا تناسبها (الكلمات المتخصصة، وما إلى ذلك).

نصائح أخرى

إليك ما يعتقده بورلاند (الآن إمباركاديرو) حول اللغة الإنجليزية إلى غير الإنجليزية:

طول السلسلة الإنجليزية (بالأحرف)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

أعتقد أنه يمكنك تطبيق هذا نوعًا ما (مع بعض التعديلات) لليابانيين على غير اليابانيين.

هناك عنصر آخر قد ترغب في أخذه بعين الاعتبار وهو نبرة اللغة.في اللغة الإنجليزية ، يتم صياغة التعليمات على أنها ضرورة كما في "Press OK". ولكن في اللغة اليابانية ، تعتبر الضرورات وقحة ، ويجب عليك عبارة التعليمات بشكل كبير (أو Keigo) كما في "OK ボタン 押し て ください ください"

احترس من مجموعات كانجي المكونة من ثلاثة أحرف.تُترجم العديد من الكلمات الكبيرة إلى مجموعة كانجي مكونة من ثلاثة أو أربعة أحرف مثل 国際化(التدويل:20 حرفًا)، 高可用性(توفر عالي:17 حرف).

من خلال تجربتي كمترجم ومتخصص في التعريب، فإن القاعدة الأساسية الجيدة هي وجود حرفين يابانيين لكل كلمة إنجليزية.

باعتباري مترجمًا ذو خبرة بين اليابانية والإنجليزية، أستطيع أن أقول إنه من الصعب جدًا تحديد هذا الأمر كميًا، ولكن في تجربتي عادةً ما يكون النص الإنجليزي المترجم من اليابانية يحتوي على ما يقرب من 200٪ من الأحرف مثل النص المصدر.يوجد في اللغة اليابانية العديد من العبارات والأسماء المحددة ثقافيًا والتي لا يمكن ترجمتها حرفيًا وتحتاج إلى شرح باللغة الإنجليزية.عند الترجمة، ليس من غير المعتاد بالنسبة لي أن آخذ جملة يابانية واحدة وأخرج منها فقرة إنجليزية واحدة حتى يتم توصيل المعنى إلى القارئ.من أعلى هنا مثال:

「懐かしい」

وهذا يعني حرفيا الحنين.ومع ذلك، في اليابانية يمكن استخدامها كعبارة واحدة في علامة تعجب.ومع ذلك، في اللغة الإنجليزية من أجل نقل الشعور بالحنين إلى الماضي، نحتاج إلى سياق أكثر بكثير.على سبيل المثال، قد تحتاج إلى تحويل هذه العبارة المفردة إلى جملة:

"بينما كنت أسير بالقرب من مدرستي الابتدائية القديمة، غمرتني ذكريات الماضي."

ولهذا السبب فإن الترجمة الآلية بين اليابانية والإنجليزية مستحيلة.

حسنًا، الأمر أكثر تعقيدًا من مجرد عدد الأحرف في الاسم مقارنة باللغة الإنجليزية، على سبيل المثال، تتمتع اللغة اليابانية أيضًا ببنية نحوية مختلفة مقارنة باللغة الإنجليزية، لذلك قد تستخدم جمل معينة كلمات أكثر باللغة اليابانية، بينما تستخدم جمل أخرى كلمات أقل .أنا لا أعرف حقًا اللغة اليابانية، لذا يرجى أن تسامحني لاستخدام اللغة الكورية كمثال.

في اللغة الكورية، الجملة غالبًا ما تكون أقصر من الجملة الإنجليزية، ويرجع ذلك أساسًا إلى حقيقة أنها يتم اختصارها باستخدام السياق لملء الكلمات المفقودة.على سبيل المثال، قول "أنا أحبك" يمكن أن يكون قصيرًا مثل 사랑해 ("سارانج هاي، ببساطة الفعل "أحب")، أو طويلًا مثل الجملة المؤهلة بالكامل 저는 당신을 살앙해요 (أنا [موضوع] أنت [كائن) ] الحب [فعل + معدل مهذب].تعتمد كيفية كتابته في النص على السياق، والذي يتم تحديده عادةً بواسطة الجمل السابقة في الفقرة.

على أي حال، فإن وجود خوارزمية لمعرفة هذا النوع من الأشياء سيكون أمرًا صعبًا للغاية، لذلك ربما تكون أفضل حالًا بكثير، فقط باستخدام الإحصائيات.ما يجب عليك فعله هو استخدام عينات عشوائية حيث النصوص اليابانية المعروفة والنصوص الإنجليزية لها نفس المعنى.كلما كانت العينة أكبر (وكانت عشوائية أكثر) كلما كان ذلك أفضل.على الرغم من أنها إذا كانت عشوائية حقًا، فلن يحدث فرقًا كبيرًا في عدد الأشخاص الذين تجاوزوا بضع مئات.

الآن، شيء آخر هو أن هذه النسبة ستتغير تمامًا على نوع النص الذي تتم ترجمته.على سبيل المثال، من المرجح جدًا أن تحتوي الوثيقة عالية التقنية على نسبة طول يابانية/إنجليزية أعلى بكثير من الرواية الرديئة.

أما بالنسبة لاستخدام قاموس الترجمة من كلمة إلى كلمة - فمن المحتمل ألا يعمل ذلك بشكل جيد (وربما يكون خاطئًا).لا تتم ترجمة نفس الكلمة إلى نفس الكلمة في كل مرة بلغة مختلفة (على الرغم من احتمالية حدوث ذلك في المناقشات الفنية).مثلا كلمة جميلة.ليس هناك أكثر من كلمة واحدة يمكنني تخصيصها لها باللغة الكورية (أي:هناك خيار)، لكن في بعض الأحيان أفقد هذا الاختيار، كما في الجملة (ذلك الطعام جميل)، حيث لا أقصد أن الطعام يبدو جيدًا.أعني أن مذاقها جيد، ويتغير خيار الترجمات الخاص بهذه الكلمة.وهذا ظرف شائع جدًا.

مشكلة كبيرة أخرى هي الترجمة المثالية.شيء لا يتقنه البشر حقًا، وشيء تكون أجهزة الكمبيوتر أسوأ منه بكثير.عندما أقوم بمراجعة مستند مترجم من نص آخر إلى الإنجليزية، يمكنني دائمًا رؤية طرق مختلفة لتقصيره كثيرًا.

لذلك، على الرغم من أنه باستخدام الإحصائيات، ستتمكن من التوصل إلى متوسط ​​جيد جدًا لنسبة الطول بين الترجمات، إلا أن هذا سيكون مختلفًا كثيرًا عما سيكون عليه لو كانت جميع الترجمات مثالية.

يبدو الأمر بسيطًا بما فيه الكفاية - ما عليك سوى معرفة النسب.

لكل نص، قم بحساب عدد أحرف النص والكلمات الإنجليزية في قاموس المصطلحات الخاص بك واحسب النسبة.

ويمكن تعزيز ذلك بالوثائق المصدرية اليابانية على افتراض يمكنك اكتشاف النص الذي توجد به الكلمة اليابانية وما هي العبارة الإنجليزية المكافئة لها في الترجمة.وإلا فسيتعين عليك تخمين النسب أو تجاهل ذلك كبيانات مصدر،

بعد ذلك، كما قلت، احسب عدد الكلمات في كل نص من النص المصدر، وقم بإجراء الضربات، ويجب أن يكون لديك تقدير تقريبي.

يبدو أن تجربتي (وإن كانت صغيرة) تشير إلى أنه بغض النظر عن اللغة، فإن كتل النص تأخذ نفس القدر من المساحة المطبوعة لنقل المعلومات المكافئة.لذا، بالنسبة لكتلة نصية كبيرة، يمكنك تعيين عدد عرض لكل حرف باللغة الإنجليزية (احصل على هذا من خط شائع مثل Times New Roman)، وبالمثل استخدم خطًا يابانيًا شائعًا بنفس حجم النقطة لحساب عدد الأحرف التي ستكون مطلوبة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top