سؤال

هل هناك أي شخص لديه تجربة مع أي مفتوحة المصدر ، أو رخيصة نسبيا التعرف على الصوت API جافا ؟ أنا أبحث عن شيء من شأنها أن تحول الكلمات المنطوقة إلى نص.

من جافا التعرف على الكلام صفحة على الشمس, ويبدو أن ذلك هو ما هو بدلا من ذلك الميت.متطلبات بلدي هو شيء على الأقل يعمل على لينكس.

يمكن لأي شخص أن يوصي بشيء ؟ نقية جافا سيكون مكافأة آخر لينكس على أساس حل يمكن النظر فيها.و لأن هذا هو مشروع الوطن...أرخص وأفضل.

  • تحرير

جامعة كارنيجي ميلون أبو الهول كما أميت أشار إلى جامعة كارنيجي ميلون أبو الهول http://cmusphinx.sourceforge.net/html/cmusphinx.php مشكلتي هي ضخمة كلمة نسبة الخطأ.التدريب يبدو المشروع كل في حد ذاته, أنا على أمل جمع بعض القوة أن تحاول ذلك في نهاية هذا الاسبوع.

IBM ViaVoice
هناك إعلانات الأخبار تطوف في عام 2004 عن عبر صوت كونها مفتوحة المصدر.يبدو صحفي سابق لأوانه وأنه لم يحدث أبدا.عبر صوت صدر لينكس في بعض نقطة, ولكن يبدو أنها توقفت.كل ذلك يبدو أن اليسار IBM على الموقع ViaVoice جزءا لا يتجزأ من.

IBM Websphere صوت
أتصور أن هذا هو السبب ViaVoice (سطح المكتب) يبدو وقفها.IBM خلقت هذه الحلول التجارية التي سوف تكلف تخصيص أكثر من ذراع وساق.فقط باستخدام أنها سوف تأخذ تلك التي كنت قد تركت على الأقل بعد تجربتي مع websphere و IDE.

فارق بسيط
ويبدو أنها لا تزال قد خلق منتجات لينكس.ولكن أعتقد أنها ضاعت و يتبع IBM في السوق الخادم.أنا لست متأكدة من هذا ، موقع على شبكة الانترنت ليست ودية في العثور على معلومات مفيدة.

فتح العقل / حرية التعبير
هؤلاء الرجال الحفاظ على تغيير اسم المشروع.ربما بعض المال من الجوع الشركة تحافظ على تهديد لهم, ولكن أنا لا أعرف.المشروع يبدو قليلا الميت.

قد حاول التدريب الهول في نهاية هذا الاسبوع لمعرفة ما إذا كان يريد أن يكون صديقا.آخر أسوأ حال ، سوف تبحث في استخدام Microsoft خطاب الحل.وقد عملت بشكل جيد بالنسبة لي في الماضي ، ولكنها ليست كبيرة لينكس حل.أنا ربما يمكن استخدامه من خلال النبيذ ، ولكن بعد ذلك سوف يكون اثنين من خوادم منفصلة...فوضوي فوضوي.

وما يبدو أنه مكان جيد لزيارة الصوتية/خطاب SpeechTechMag.لديهم 'حفل الاستقبال السنوي المرجعي' أن لديه قائمة من الشركات التي بطريقة ما يتعلق أنفسهم إلى صوت/كلمة.

هل كانت مفيدة؟

المحلول

نصائح أخرى

أبو الهول هو إلى حد بعيد أفضل خيار متاح إذا كنت على ميزانية.ومع ذلك فإنه أيضا يجعل ضخمة الفرق ما النماذج التي تستخدمها ، كيف لحن لهم و كيف يمكنك ضبط مصدر الصوت.كل شيء يجب أن المباراة وإلا فإنه فقط لن تعمل.وبالنظر إلى المشكلة الموضحة معرف يكون على استعداد للمراهنة على مبلغ كبير أن كنت قد حصلت على حصلت على نماذج مختلطة و هيئة التصنيع العسكري الخاص بك لا يتم معايرة بشكل صحيح.أيضا, إذا كان لديك لهجة ربما لن تعمل - هذه ليست قضية مع فك ولكن مع النماذج الصوتية - إذا لم يكن أحد مع صوت/لهجة مماثلة ليدكم تم تضمينها في بيانات التدريب سوف تحصل على النتائج السيئة.

إلى أن قال: وقد كنت بحثت في المصادر المفتوحة نماذج الصفحة ؟

http://www.speech.cs.cmu.edu/sphinx/models/

اعتمادا على ما كنت تحاول أن تفعل ذلك يجب أن تكون قادرة على الحصول على حوالي 90% دقة على حرية التعبير مع 16 كيلو هرتز وول ستريت جورنال نماذج gigaword LMs النيفيرابين.أنا الحذر ولكن هذا العصر هو مشروع هائل و لم يصل بعد وضع السلع.

يمكنك تحميل vPass (صوت كلمة المرور) من http://www.basic-signalprocessing.com.

ل (vText) صوت إلى نص ، أستطيع إرسال vText.jar ملف إلى البريد الإلكتروني الخاص بك.الثابتة والمتنقلة لا يخطر enquiry@basic-signalprocessing.com

مكونات مصممة جافا .صافي اللغة.الاعتراف مدة 5 ثوان.VPass هو اختبار جيد vText لا, لا تزال جديدة ، هذا هو السبب تعبئتها حتى الآن.

التحيات ، أندرياس

لقد كنت أبحث عن نفس الشيء لبضعة أيام الآن.حتى الآن لقد وجدت Sphinx4 و FreeTTS.وكلاهما جافا تطبيقات و أبو الهول يبدو أنه يتم تحديث بدلا من ذلك في كثير من الأحيان على عكس FreeTTS.المشكلة الوحيدة التي أعاني هو أن أبو الهول هو وجود مشاكل في فهم لي في بيئة المكتب ، أريد حلا مستودع البيئة.

مجموعتي الانتهاء مصغرة برنامج جافا الاعتراف تحدثت الأرقام باستخدام أبو الهول.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top