سؤال

الجزء الأول من هذا السؤال هو الآن خاصة به، هنا: تحليل نص لهجات

سؤال: كيف يمكن إضافة اللجهات إلى الكلام الناتج؟

ما الذي وصلت إليه:

أنا لا أقصد علامات لهجة فقط، أو الانعكاس، أو أي شيء مفرد من هذا القبيل. أعني شيئا مثل لهجة بريطانية كاملة، أو لهجة اسكتلندية، أو روسية، إلخ.

أعتقد أنه يمكن القيام بذلك خارج اللغة أيضا. EX : يمكن إنشاء شيء باللغة الروسية بهجة بريطانية، أو أي شيء في ماندرين يمكن أن يكون لهجة روسية.

أعتقد أن العملية الأساسية ستكون هذه:

  1. تحليل النص
    • مقارنة مع قاعدة بيانات (أو شيء من هذا القبيل) لتحديد ما يحتاج إلى لهجة، كم هو قوي يجب أن يكون، إلخ.
  2. توليد الكلام باللغة المحددة
    • سهل مع معالجات النص إلى كلام عادي.
  3. حدد اللكنة المحددة بناء على النص الذي تم تحليله.
    • هذا هو الجزء المعني.
    • أعتقد أن مجموعة من المكشورات والمرشحات ستعمل بشكل أفضل للخطوة التالية.
  4. خطاب شبكة ولهجة.
    • سيكون هذا الجزء السهل.
    • ربما يمكن القيام به عن طريق ضرب الكلام من خلال لهجة، مثل العديد من أساليب DSP الأخرى.
  5. هذا هو حقا أكثر من سؤال DSP العام، ولكن أود الخروج بخوارزمية ثابارية للقيام بذلك بدلا من فكرة عامة.

هل كانت مفيدة؟

المحلول

ما هي لهجة؟

لهجة ليست مرشحا للصوت؛ إنه نمط من الإدراك الصوتية للنص بلغة. لا يمكنك التقاط تسجيل باللغة الإنجليزية الأمريكية، وتشغيله من خلال "مجموعة من الوسائط والمرشحات"، ولديها اللغة الإنجليزية البريطانية. ما dsp مفيد له في تنفيذ prosody ، وليس لهجة.

أساسا (وأبسط للطراز)، تتكون لهجة من قواعد تحقيق صوتي لسلسلة من الأصوات. يتأثر تصور اللكنة بشكل أكبر على بواسطة prosody يختار المتكلم عند قراءة النص.

جيل الكلام

عملية توليد الكلام لديه خطوتان أساسيان:

  1. text to-funmes: تحويل النص المكتوب إلى سلسلة من الأصوات (بالإضافة إلى supprasechations مثل الإجهاد، والمعلومات prosodic مثل حدود الكلام). هذا يعتمد لهجة إلى حد ما (على سبيل المثال إخراج "؛ مختبر "يختلف بين المتحدثين الأمريكيين والبريطانيين).

  2. phoneeme-to-seep: بالنظر إلى تسلسل الصوت الصوتي، تولد الصوت وفقا لقواعد الهاتئة للمنحديات الصوتية للصوتيات. (عادة ما تجمع بين الرموز ثم ضبط التحدي الصوتي). هذا هو اللواء المعتمد للغاية، وهذه الخطوة التي تنفذ الجودة الرئيسية لهجة. قد يكون لدى فونيم معين، حتى لو كانت مشتركة بين لهجتين، من النظير عن الإنجازات الصوتية المختلفة.

  3. عادة ما يتم إقرانها. بينما كنت هل يمكن أن يكون مولد الكلام باللون البريطاني الذي يستخدم النطق الأمريكي، من شأنه أن يبدو غريبا.

    توليد الكلام مع لهجة معينة

    كتابة برنامج نصي إلى كلام هو قدر هائل من العمل (على وجه الخصوص، لتنفيذ مخطط مشترك واحد، يجب عليك تسجيل مكبر صوت أصلي يتحدث كل ديفون ممكن في اللغة)، لذلك كنت أفضل حالا باستخدام واحد موجود.

    باختصار، إذا كنت تريد لهجة بريطانية، استخدم محرك نصي باللغة الإنجليزية البريطانية جنبا إلى جنب مع محرك اللغة الإنجليزية البريطانية في اللغة الإنجليزية.

    للحصول على لهجات مشتركة مثل اللغة الإنجليزية الأمريكية والبريطانية، الماندرين القياسية، الفرنسية العاصمة، إلخ، سيكون هناك العديد من الخيارات، بما في ذلك المصدر المفتوح الذي ستتمكن من تعديله (على النحو التالي). على سبيل المثال، انظر إلى freetts و إسبيك . للحصول على لهجات أقل شيوعا، قد لا توجد محركات موجودة لسوء الحظ.

    نص حديث مع لهجة أجنبية

    باللغة الإنجليزية مع أجنبية، تكون لهجة أجنبية اجتماعيا غير مرموق جدا، لذلك ربما لا توجد أنظمة كاملة.

    ستكون استراتيجية واحدة هي الجمع بين محركات النص إلى فونيم من الرف لهجة أصلية مع محرك صوت إلى كلام للصغيرة الأجنبية. على سبيل المثال، ستعمل المتكلم الروسي الأصلي الذي تعلم اللغة الإنجليزية في الولايات المتحدة بشكل ملحوظ النطق الأمريكي بكلمات مثل مختبر ، وخريطة صوتياتها على صوتياته الروسية الأصلية، وعلاجها كما باللغة الروسية. (أعتقد أن هناك موقع إلكتروني يفعل هذا باللغة الإنجليزية واليابانية، لكن ليس لدي الرابط.)

    المشكلة هي أن النتيجة متطرفة للغاية. سيحاول متعلم اللغة الإنجليزية الحقيقية الاعتراف وإنشاء صوتيات غير موجود لغته الأم، وسوف يغير أيضا تحقيقه لأصلحه الأصليين لتقريب النطق الأصلي. كيف تتطابق النتيجة عن كثب المتكلم الأصلي بالطبع تختلف، ولكن باستخدام الأصوات المدقع الأجنبية النقية تبدو سخيفة (ومعظمها غير مفهومة).

    حتى توليد من المعقول الأمريكية-الإنجليزية-الروسية (على سبيل المثال)، سيتعين عليك كتابة محرك نص إلى فونيم. يمكنك استخدام محركات الرسائل باللغة الإنجليزية الأمريكية والروسية الحالية كنقطة انطلاق. إذا لم تكن على استعداد للعثور على وتسجيل مثل هذا المتكلم، فربما لا يزال بإمكانك الحصول على تقريب لائق باستخدام DSP للدمج بين العينات من تلك المحرمين. بالنسبة إلى ESPEAK، فإنه يستخدم تخليق متشددين بدلا من العينات المسجلة، لذلك قد يكون من الأسهل الجمع بين المعلومات من لغات متعددة.

    شيء آخر يجب مراعاته هو أن المتحدثين الأجانب غالبا ما يقومون في كثير من الأحيان بتعديل تسلسل الصوتيات بموجب التأثير من خلال الفونوحيات من لغتهم الأم، عادة عن طريق تبسيط مجموعات ساكنة، إدراج حروف العلة الساكنة أو مخففة أو تحطيم تسلسل حرف علة.

    هناك بعض الأدب في هذا الموضوع.

نصائح أخرى

هذا السؤال ليس حقا "البرمجة" في حد ذاته: اللغويات. البرمجة سهلة نسبيا. بالنسبة للتحليل، سيكون ذلك صعبا حقا، وفي الحقيقة ربما تكون أفضل حالا في الحصول على المستخدم لتحديد اللكنة؛ أم أنك تسير للحصول على قارئ قصة آلي؟

ومع ذلك، فإن لهجة أساسية قابلة للقيام مع النص الحديث إلى الكلام. هل أنت على علم الأبجدية الصوتية الدولية؟ http://en.wikipedia.org/wiki/international_phonetic_alphabet يسرد أساسا كل الأصوات صوت الإنسان قد يصنعه. لهجة ثم مجرد رسم خرائط (وظيفة) من الأبجدية إلى نفسها. على سبيل المثال، لجعل لهجة أمريكية صوت بريطانية لشخص أمريكي (على الرغم من أنها غير كافية لجعلها تبدو بريطانية لشخص بريطاني)، يمكنك إزالة المطعم جميع الأصوات "ص" في منتصف الكلمة. لذلك على سبيل المثال، سيتم استبدال Trill Alveolar بالقسمة على Uvular. (الكثير من الحالات الزاوية للعمل بها فقط لهذا).

طويل وقصير: إنه ليس بالأمر السهل، والذي ربما لماذا لا أحد قد فعل ذلك. أنا متأكد من أن زوجين من أساتذة اللغويات من شأنهم أن يقولوا مستحيلا. لكن هذا ما يفعله أساتذة اللغويات. ولكن عليك أن تحتاج أساسا إلى قراءة العديد من الكتب المدرسية السميكة على لهجات ونطق النطق لإجراء أي مؤسسة بهذه المشكلة. حظا سعيدا!

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top