Java:Обзор механизмов преобразования текста в речь [закрыт]

https://stackoverflow.com/questions/143390

02-07-2019
|

Вопрос

Сейчас я нахожусь в поиске Java-фреймворка преобразования текста в речь (TTS).В ходе моих исследований я нашел несколько фреймворков, совместимых с JSAPI1.0 (частично), перечисленных на Страница реализаций JSAPI, а также пара фреймворков Java TTS , которые , по - видимому , не соответствуют спецификации JSAPI (Мэри, Скажи-Это-Сейчас).Я также отметил, что в настоящее время для JSAPI не существует эталонной реализации.

Краткие тесты, которые я провел для FreeTTS (первый из них указан на странице JSAPI impls), показывают, что он далек от чтения простых и очевидных слов (примеры:Азбука, классная доска).В настоящее время проводятся другие тесты.

И вот тут возникает вопрос (на самом деле, 6):

Какой из TTS-фреймворков на базе Java вы использовали?
Какие из них, по вашему мнению, способны считывать самую большую базу слов?
Как насчет качества их голоса?
А как насчет их производительности?
Какие фреймворки, отличные от Java, с привязками Java существуют на сцене?
Какой из них вы бы порекомендовали?

Заранее благодарю вас за ваши комментарии и предложения.

Решение

На самом деле мне довольно повезло с Фриттс

Другие советы

В Google Translate есть секретный tts api:https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World

Я уже использовал Mary раньше, и я был очень впечатлен качеством голосов.К сожалению, я не использовал ни один из других вариантов.

На самом деле, выбор невелик:

Фестиваль, самый старый.Написан на C ++, но имеет привязки к Java.
eSpeak, быстрый и простой, используемый Google Translate
мброла

Чистая Java:

FreeTTS, код которого был перенесен с Festival, а затем был доступен с открытым исходным кодом, и разработка была остановлена.
MaryTTS - более мощный и выглядит готовым к производству.

Также существуют другие проприетарные программы, такие как:

Акапелла
Нюансный Вокализатор

Если ваше программное обеспечение работает только на Windows, вы можете использовать Microsoft Speech API.

Я использовал Естественные голоса AT & T который предоставляет перехватчики JSAPI и MS SAPI.Он обеспечивает отличное качество озвучки, хороший "общий" речевой словарь, множество элементов управления произношением и несколько языков.Это немного дороговато, но работает очень хорошо.

Я использовал его для считывания важной телеметрии датчиков водителями в мобильном сенсорном приложении.У нас не было никаких жалоб на качество передачи голоса.Точность использования научных терминов была примерно на 75% выше стандартной, а при обычном диалоге - намного выше (возможно, 90% +).Мы довели точность до 99+%, используя разметки (большинство ошибок были связаны с научными терминами и необычными сочетаниями фонем).

Это было немного сложно для процессора (мы работали на машине, эквивалентной Pentium-III, и она загружала процессор на 50-75%).При этом используется движок родной речи (совместимый с Windows, Linux и Mac) с интерфейсом Java.

Существует огромное разнообразие голосов и языков...

Я использовал FreeTTS, но у меня возникла серьезная проблема с запуском MBrola voices на Моем MacBookPro.Я заставил MBrola voices запускаться в Windows (болезненно) и Linux.Мне не повезло загрузить какие-либо другие голосовые пакеты на FreeTTS, что является позором, потому что предоставленные голоса ужасны, IMO.Помимо этого, у меня также был небольшой успех с Cloudgarden, но он работает только на Windows AFAIK.Мне было бы интересно услышать о других успехах / неудачах с голосовыми движками, поскольку этот тип работы является особенно сложным.Я также немного поиграл со Sphinx4.Я только что снес JVXML (который, похоже, основан на Sphinx4) прошлой ночью, но не смог запустить его по какой-то странной причине.

Я внес свой вклад в Мэри.Я чувствую, что у этого есть потенциал, если кто - то умнее меня отделили голоса HMM от ядра (этим голосам не нужны большие наборы данных, и они звучат нормально).Я также пытаюсь создать систему событий для freetts, чтобы отправлять события, когда она произносит какое-то слово.У меня был успех, но сейчас он сломан в linux.(вероятно, из-за ошибки таймера).

Всем большое спасибо, весь фокус в исходном коде FreeTTS.Кратко:если выполняется как java -jar freetts.jar some-more-args-here, оно произносит меньше слов, чем при исполнении в виде bin/Server.jar и bin/Client.jar.

Меня это мало устраивало МарриТТЫ У него многоязычный и понятный голос.

Чем больше вы конвертируете речь в текст, тем лучше сфинктерx4-5prealpha.Я показываю один большой палец, потому что он обладает регулируемым, гибким и модифицируемым распознавателем и грамматиком.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow