Java: synthèse des moteurs de synthèse vocale [fermé]

https://stackoverflow.com/questions/143390

02-07-2019
|

Question

Je suis maintenant à la recherche d'un framework TTS (Java Text to Speech). Au cours de mes investigations, j'ai trouvé plusieurs frameworks compatibles JSAPI1.0 (partiellement) répertoriés dans page Implémentations JSAPI , ainsi que deux frameworks Java TTS qui ne semblent pas suivre les spécifications JSAPI ( Mary , Dites-le maintenant ) . J'ai également noté qu'il n'existe actuellement aucune implémentation de référence pour JSAPI.

Les brefs tests que j'ai effectués pour FreeTTS (le premier répertorié dans la page impls de JSAPI) montrent qu'il est loin de lire des mots simples et évidents (exemples: ABC, tableau noir). D'autres tests sont en cours.

Et voici la question (6, en fait):

Lequel des frameworks TTS basés sur Java avez-vous utilisé?
Lesquels, à votre avis, sont capables de lire la plus grande base de mots?
Qu'en est-il de la qualité de leur voix?
Qu'en est-il de leurs performances?
Quels frameworks non-Java avec liaisons Java existe-t-il sur la scène?
Lequel d'entre eux recommanderiez-vous?

Merci d'avance pour vos commentaires et suggestions.

La solution

J'ai en fait eu beaucoup de chance avec FreeTTS

Autres conseils

Google Translate a une API secrète tts: https://translate.google.com/translate_tts?ie=utf-8&tl= en & amp; q = Bonjour% 20World

J'ai déjà utilisé Mary et j'ai été très impressionné par la qualité des voix. Malheureusement, je n'ai utilisé aucun des autres.

En fait, le choix n’est pas grand:

Festival, le plus vieux. Écrit en C ++ mais comporte des liaisons avec Java.
eSpeak, simple et rapide, utilisé par Google Traduction
mbrola

Pure Java:

FreeTTS, code qui a été porté par Festival, puis open-source et le développement arrêté.
MaryTTS - plus puissant et semble prêt pour la production.

Il existe également d'autres programmes propriétaires tels que:

Acapella
Vocalizer Nuance

Si votre logiciel est uniquement Windows, vous pouvez utiliser l'API Microsoft Speech.

J'ai utilisé AT & amp; T Voix Naturelles , qui fournit des points d'ancrage JSAPI et MS SAPI. Il fournit des voix d'excellente qualité, un bon "général". dictionnaire de la parole, nombreux contrôles sur la prononciation et plusieurs langues. C'est un peu cher, mais fonctionne très bien.

Je l'ai utilisé pour lire une importante télémétrie du capteur aux conducteurs dans une application de capteur mobile. Nous n'avons rien eu à redire sur la qualité de la voix. Il avait environ 75% de précision avec les termes scientifiques et une précision beaucoup plus élevée (peut-être 90% +) avec un dialogue normal. Nous avons obtenu environ 99% de précision en utilisant des balises (la plupart des erreurs concernaient des termes scientifiques avec des combinaisons inhabituelles de phonèmes).

Le processeur était un peu dur (nous utilisions une machine équivalente à Pentium III et la vitesse de pointe était de 50% à 75%). Ceci utilise un moteur vocal natif (compatible Windows, Linux et Mac) avec une interface Java.

Il existe une grande variété de voix et de langues ...

J’ai utilisé FreeTTS, mais j’ai eu un problème majeur à faire en sorte que les voix de MBrola soient exécutées sur My MacbookPro. J'ai obtenu que les voix de MBrola s'exécutent sous Windows (avec peine) et sous Linux. Je n'ai pas eu de chance de charger d'autres paquets de voix sur FreeTTS, ce qui est dommage car les voix fournies sont horribles, à l'OMI. En dehors de cela, j'ai également eu un petit succès avec Cloudgarden, mais cela ne fonctionne que sous Windows, autant que je sache. Je serais intéressé d'entendre d'autres succès / échecs avec les moteurs de voix car ce type de travail est particulièrement difficile. Je joue aussi un peu avec Sphinx4. Je viens juste de retirer JVXML (qui semble être basé sur Sphinx4) la nuit dernière, mais je n’ai pas pu le faire fonctionner pour une raison étrange.

J'ai contribué à Mary. Je pense que cela a un potentiel si quelqu'un est plus intelligent que moi et sépare les voix HMM de leur cœur (ces voix n'ont pas besoin de grands ensembles de données et sonne bien). J'essaie également de créer un système d’événement afin d’envoyer des événements quand il dit un mot. J'ai eu du succès, mais il est cassé sous Linux maintenant. (probablement à cause d'un bug du minuteur).

Merci beaucoup à tous, le truc est en source FreeTTS. En bref: s'il est exécuté en tant que java -jar freetts.jar, more-more-args-here , il épelle des mots moindres que lorsqu'il est exécuté à la manière de bin / Server.jar et bin / Client.jar .

Je me suis senti mal à l'aise avec MarryTTS . Il est multilingue et a une voix claire pour comprendre.

Si vous convertissez la parole en texte, le meilleur choix est sphinx4-5prealpha . Je donne un pouce, car il a une reconnaissance et une grammeuse modifiables et flexibles et modifiables.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow