جافا:نص خطاب محركات نظرة عامة [مغلقة]

https://stackoverflow.com/questions/143390

02-07-2019
|

سؤال

أنا الآن في البحث عن جافا النص إلى كلام (TTS) إطار.خلال التحقيقات لقد وجدت عدة JSAPI1.0-(جزئيا)-متوافق الأطر المدرجة على JSAPI تطبيقات الصفحة, فضلا عن زوج من جافا تحويل النص إلى كلام الأطر التي لا تظهر لمتابعة JSAPI المواصفات (مريم, أقول ذلك الآن).لقد أشار أيضا إلى أنه لا يوجد حاليا تنفيذ مرجع موجود JSAPI.

موجز الاختبارات فعلت بالنسبة FreeTTS (أول واحد المدرجة في JSAPI impls الصفحة) تظهر أنه يتم الآن من قراءة بسيطة واضحة الكلمات (أمثلة:ABC, السبورة).اختبارات أخرى حاليا في التقدم.

وهنا يدور السؤال (6 ، في الواقع):

والتي جافا القائمة على تحويل النص إلى كلام الأطر التي استخدمتها ؟
والتي منها ، حسب رأيك ، هل قادر على قراءة أكبر wordbase?
ماذا عن الصوت ؟
ماذا عن الأداء ؟
غير الأطر جافا Java الارتباطات هناك على الساحة ؟
من منهم تنصحين ؟

شكرا لكم مقدما على تعليقاتكم واقتراحاتكم.

المحلول

لقد كان في الواقع جميلة بالتوفيق FreeTTS

نصائح أخرى

ترجمة جوجل سر تحويل النص إلى كلام api:https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World

لقد استعملت قبل مريم و أنا معجب جدا مع نوعية من الأصوات.للأسف, أنا لم تستخدم أي من تلك الأخرى.

في الواقع, ليس هناك خيار كبير:

مهرجان معظم القديمة.مكتوب في C++ ولكن الارتباطات إلى جاوة.
eSpeak, سريعة وبسيطة, المستخدمة من قبل جوجل ترجمة
mbrola

نقية جافا:

FreeTTS الذي كان رمز استدار من المهرجان ، ثم كان مفتوح المصدر و التنمية توقفت.
MaryTTS - أكثر قوة و تبدو الإنتاج جاهزة.

أيضا هناك غيرها من البرامج الاحتكارية مثل:

Acapella
Nuance Vocalizer

إذا كان البرنامج الخاص بك ويندوز فقط ، يمكنك استخدام Microsoft Speech API.

لقد استعملت AT&T الأصوات الطبيعية التي توفر JSAPI و MS SAPI السنانير.أنها توفر نوعية ممتازة أصوات جيدة "العامة" خطاب القاموس العديد من الضوابط على النطق ، و لغات متعددة.انها قليلا الثمن ، ولكن يعمل بشكل جيد جدا.

اعتدت على قراءة استشعار أهمية القياس للسائقين في استشعار المحمول التطبيق.كان لدينا أي شكاوى حول جودة الصوت.كان حوالي 75% من خارج منطقة الجزاء دقة المصطلحات العلمية و أعلى من ذلك بكثير (ربما 90%+) مع الحوار العادي.لدينا تصل إلى حوالي 99+% دقة باستخدام هوامش الربح (معظم الأخطاء على المصطلحات العلمية غير عادية مع صوت مجموعات).

كان من الصعب بعض الشيء على المعالج (كنا تعمل على بنتيوم الثالث ما يعادل الجهاز و تم دفع 50%-75% من الذروة وحدة المعالجة المركزية).هذا يستخدم الكلام الأصلي engine (Windows, Linux, Mac compatible) مع جافا واجهة.

هناك مجموعة متنوعة ضخمة من الأصوات واللغات...

اعتدت FreeTTS ولكن لدي مشكلة كبيرة في الحصول على MBrola أصوات لتشغيل على MacbookPro.أنا لم تحصل على MBrola أصوات تعمل على ويندوز (مؤلم) و لينكس.لقد لا حظ تحميل أي صوت آخر الحزم على FreeTTS وهو عار لأن الموردة الأصوات الرهيبة المنظمة البحرية الدولية.خارج من أنه كان لدي القليل من النجاح مع Cloudgarden كذلك ولكن هذا يعمل فقط على ويندوز AFAIK.سأكون مهتما لسماع الآخرين النجاح/الفشل مع صوت محركات هذا النوع من العمل صعبة خاصة.أنا أيضا اللعب قليلا مع Sphinx4.لقد سحبت JVXML (الذي يظهر أن يكون على أساس Sphinx4) الليلة الماضية ولكن لا يمكن أن تحصل عليه لتشغيل لسبب غريب.

لقد ساهمت إلى مريم.أشعر أنها المحتملة إذا شخص أذكى مني فصل همم الأصوات الأساسية (تلك الأصوات لا تحتاج مجموعات كبيرة من البيانات والصوت موافق).أنا أيضا أحاول أن تفعل نظام الحدث إلى freetts لإرسال الأحداث عندما يقول كلمة واحدة.لقد كان النجاح, ولكن كسر في لينكس الآن.(ربما بسبب توقيت علة).

شكرا جزيلا الجميع الحيلة في FreeTTS المصدر.باختصار:إذا كان يتم تشغيل java -jar freetts.jar some-more-args-here, ينطق أقل الكلمات من عند إعدامه بطريقة bin/Server.jar و bin/Client.jar.

لقد وجدت قليلا مريحة مع MarryTTS وقد متعدد اللغات و بصوت واضح لفهم.

T تحويل الكلام إلى نص ، أفضل optiion هو sphinx4-5prealpha.أعطي أحد الإبهام ، لأنه قابل للتعديل ، المرونة للتعديل التعرف و القواعد.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow