Распознавание голоса Java

https://stackoverflow.com/questions/609528

03-07-2019
|

Вопрос

Есть ли кто-нибудь, у кого есть опыт работы с каким-либо открытым исходным кодом или относительно дешевым API распознавания голоса для Java?Я в значительной степени ищу что-то, что превратит произнесенные слова в текст.

Судя по странице распознавания речи Java на Sun, кажется, что это что-то довольно мертвое.Мои требования - это то, что, по крайней мере, работает на Linux.

Может кто-нибудь порекомендовать что-нибудь?Чистая Java была бы бонусом, иначе можно было бы рассмотреть решение на основе Linux.А поскольку это домашний проект...чем дешевле, тем лучше.

Редактировать

CMU SPHINX, как указал AMIT CMU SPHINX http://cmusphinx.sourceforge.net/html/cmusphinx.phpМоя проблема — огромный процент ошибок в словах.Тренировка кажется самостоятельным проектом, и я надеюсь набраться сил, чтобы опробовать ее на этих выходных.

IBM черезVoice
Ходят новости за 2004 год о Via Voice становится открытым исходным кодом.Похоже, что пресс-релиз был преждевременным и этого так и не произошло.ВИА Голос был выпущен для Linux в какой-то момент, но кажется они остановились.Кажется, на сайте IBM осталось только Встроенный ViaVoice.

IBM Вебсфера Голос
Я думаю, именно поэтому ViaVoice (настольный компьютер) больше не поддерживается.IBM создала это коммерческое решение, которое будет стоить дороже, чем рука и нога.И простое его использование потребует тех, которые у вас остались, по крайней мере, после моего опыта работы с WebSphere и их IDE.

Нюанс
Кажется, они все еще могут создавать продукты для Linux.Но я думаю, что они заблудились и последовали за IBM на рынок серверов.Я не уверен насчет этого, их веб-сайт не очень удобен для поиска полезной информации.

Открытость разума/Свобода слова
Эти ребята продолжают менять название своего проекта.Вероятно, какая-то жаждущая денег компания продолжает им угрожать, но я не знаю.Проект выглядит немного мертвым.

Я мог бы попробовать потренировать Сфинкса на этих выходных, чтобы посмотреть, захочет ли он дружить.В противном случае я рассмотрю возможность использования речевого решения Microsoft.Раньше мне это помогало, но для Linux это не лучшее решение.Я, наверное, мог бы использовать его через Wine, но тогда у меня будет два отдельных сервера...грязный грязный.

О, и что кажется хорошим местом для посещения для голоса/речи SpeechTechMag.У них есть «Ежегодный справочник», в котором есть список компаний, которые так или иначе связаны с голосом/речью.

Решение

В основном Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php

Другие советы

sphinx, безусловно, лучший вариант, если у вас ограниченный бюджет.однако это также делает огромный разница, какие модели вы используете, как вы их настраиваете и как вы настраиваете свой источник звука.абсолютно все должно совпадать, иначе ничего не получится.учитывая описанную вами проблему, я готов поспорить на значительную сумму, что у вас перепутаны модели и ваш микрофон неправильно откалиброван.Кроме того, если у вас есть акцент, это, вероятно, не сработает - это проблема не декодера, а акустических моделей - если в обучающие данные не был включен человек с голосом/акцентом, похожим на ваш, вы получите плохие результаты .

тем не менее, вы смотрели их страницу моделей с открытым исходным кодом?

http://www.speech.cs.cmu.edu/sphinx/models/

В зависимости от того, что вы пытаетесь сделать, вы сможете получить около 90% точности свободы слова с моделями WSJ 16 кГц и Gigaword LM NVP.Однако я предупреждаю, что ASR — это масштабное предприятие, которое еще не достигло товарного статуса.

вы можете скачать vPass (голосовой пароль) с http://www.basic-signalprocessing.com.

Для преобразования голоса в текст (vText) я могу отправить файл vText.jar на вашу электронную почту.Пожалуйста, сообщите об этом на адрес enquiry@basic-signalprocessing.com.

Компоненты разработаны для языков Java и .Net.Период распознавания составляет 5 секунд.VPass хорошо протестирован, vText — нет, он все еще новый, поэтому еще не упакован.

С уважением, Андреас

Я ищу то же самое уже несколько дней.Пока что нашел Sphinx4 и FreeTTS.Оба являются реализациями Java, и Sphinx, похоже, обновляется довольно часто, в отличие от FreeTTS.Единственная проблема, с которой я столкнулся, заключается в том, что Sphinx не может понять меня в офисной среде, и мне нужно решение для складской среды.

Моя группа закончила работу над мини-программой на Java для распознавания произнесенных цифр с помощью Сфинкс.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow