كيف يمكنني أن أزعج النص إلى الكلام المتطور؟

https://stackoverflow.com/questions/3757226

04-10-2019
|

سؤال

مرة أخرى في الأيام الخوالي ، كان النص إلى الكلام ، كما كان الحال ، غير كامل. عندما كتبت في كلمة واحدة ، فإن ذلك سيقرأها إلى حد كبير كيف قمت بتهجئتها ... في رتابة. في كثير من الأحيان ، ستكون النتيجة مضحكة للغاية. في الوقت الحاضر ، فإن النص إلى الكلام ذكي للغاية بحيث لا يمكن أن يفسد بطرق يمكن أن تضحك.

كمشروع شخصي ، أود أن أقوم بتكوين تطبيق يمكن أن يعيد هذا النمط القديم من النص إلى الكلام ، إذا كانت لعبة فقط. في .NET ، لديّ لي كلاهما System.Speech.dll و ال SpeechLib كوم كائنات. (مكتبة كائنات الكلام Microsoft) يبدو أنه يستخدم نظام التشغيل المدمج في النص إلى الكلام ، والذي مرة أخرى ، ذكي للغاية. هل هناك أي طرق لتكوين هذه لتعطيل كل ما يجعلها ذكية؟

لقد جربت بعض خيارات "Sayas" المختلفة ، لقد حاولت ضبط الثقافة على ثابت (استثناء!) ، والآن أبحث في SSML. لقد بدأت تبدو وكأنني سأضطر إلى العثور على التكنولوجيا القديمة نفسها ، لكنني لا أعرف حتى من أين أبدأ هناك.

كمثال على الفوضى التي آمل أن أراها ، إليك بعض القمر ألفا بالنسبة لك: http://www.youtube.com/watch؟v=HV6Rbeolqro (تأكد من أنك ترتدي سماعات الرأس!)

Con Flab هذه محولات النص إلى الفني ، والهواتف العادية ، والهواتف التي لا تحتوي على كابلات ، و ...

المحلول 2

حسنًا ، تمكنت للتو من التعثر عبر مكتبة "Microsoft Voice Text" القديمة: vtext.dll

يبدو أن هذا ما كنت أبحث عنه! مقارنة بمكتبات TTS الحديثة ، فإن الواجهة بسيطة للغاية. لا يبدو أن النتيجة هي نفس الصوت في هذا الفيديو الذي ربطته ، ولكن ربما كان ذلك بمثابة تطبيق مختلف. وفي كلتا الحالتين ، حان الوقت للتذكر.

var tts = new HTTSLib.TextToSpeech();
tts.Speak("ebrbrbrbrbrbrbrbr");

لسبب ما تعطل vshost.exe عندما أجعله يقول "هنا". ولكن نظرًا لأن هذا مجرد مشروع شخصي غبي ، يمكنني تجاهله.

نصائح أخرى

ربما تريد ما يسمى "خوارزمية NRL" ، والتي استخدمتها Votrax توليفات الكلام في السبعينيات والثمانينيات. أتذكر أن صديقًا لي كان لديه واحد من تلك التي وصلنا إليها (عبر المنفذ التسلسلي) إلى Osborne I. لقد حصلنا على الكثير من الضحك من الطريق ". خرج "الكمبيوتر" "com poo ter" ، على سبيل المثال.

أو ربما كان أ microvox أن صديقي كان. يبدو أن هذا يرن جرس. في ذلك الوقت ، استخدمت جميع النصوص إلى مربعات الكلام نفس التكنولوجيا إلى حد كبير. المقالة المرتبطة هي نافورة المعلومات. حوالي منتصف الطريق هو قسم طويل من النص إلى تحويل الكلام. يصف القواعد والخوارزمية الأساسية. أظن أنه مع بعض الدراسة والتجريب ، يمكنك تكرار تخليق خطاب Microvox.

تم تنفيذ خوارزمية NRL بواسطة Unix Speak Command, ، يبدو أن مصدره يضيع في دلو التاريخ العظيم. لكن، MD McIlroy كتب ورقة عن ذلك. خطاب اللغة الإنجليزية الاصطناعية حسب القاعدة (إنه ملف TAR يحتوي على صفحات ممسوحة ضوئيًا).

سيكون هذا مشروعًا ممتعًا للعب معه إذا كان لدي الوقت. حظا سعيدا في ذلك. اسمحوا لي أن أعرف إذا وصلت إلى أي مكان معه.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow