Java: Text-to-Speech-Motoren im Überblick [geschlossen]

https://stackoverflow.com/questions/143390

02-07-2019
|

Frage

Ich bin jetzt auf der Suche nach einem Java-Text-to-Speech (TTS) Rahmen. Während meiner Untersuchungen habe ich mehrere JSAPI1.0- (teilweise) -kompatible Rahmen aufgeführt auf JSAPI Implementations sowie ein Paar von Java TTS Frameworks, die nicht angezeigt werden JSAPI spec ( Mary , Say-It-Now ) . Ich habe auch festgestellt, dass derzeit keine Referenzimplementierung existiert für JSAPI.

Kurz Tests, die ich für FreeTTS gemacht habe (ersten aufgelistet in JSAPI impls Seite) zeigt, dass es bei weitem nicht das Lesen einfach und offensichtlich Worte (Beispiele: ABC, Tafel) ist. Weitere Tests sind derzeit im Gange.

Und hier geht die Frage (6, tatsächlich):

Welche der Java-basierten TTS-Frameworks verwendet haben Sie?
Welche diejenigen, indem Sie Ihre Meinung, die größte wordbase des Lesens fähig sind?
Was ist mit ihrer Sprachqualität?
Was über ihre Leistung?
Welche Nicht-Java mit Java-Bindungen Frameworks sind in der Szene dort?
Welche von ihnen würden Sie empfehlen?

Vielen Dank im Voraus für Ihre Kommentare und Anregungen.

Lösung

Ich habe eigentlich ziemlich viel Glück mit FreeTTS

Andere Tipps

Google Übersetzen hat ein Geheimnis tts api: https://translate.google.com/translate_tts?ie=utf-8&tl=en&q= Hallo% 20World

ich Mary habe vorher benutzt und ich war mit der Qualität der Stimmen sehr beeindruckt. Leider habe ich nicht von den anderen verwendet wird.

Eigentlich gibt es keine große Wahl:

Festival, die meisten alt. Geschrieben in C ++, aber hat Bindungen zu Java.
eSpeak, schnell und einfach, verwendet von Google Translate
mbrola

reine Java:

FreeTTS, welcher Code wurde von Festival portiert, und dann war Open-Source und Entwicklung wurde gestoppt.
MaryTTS -. Leistungsfähiger und sieht die Produktion bereit

Es gibt auch eine andere Bedeutung proprietäre Programme wie:

Acapella
Nuance Vocalizer

Wenn Sie Ihre Software ist nur Windows können Sie Microsoft Speech API verwenden.

Ich habe verwendet AT & T Natural Voices die JSAPI und MS SAPI Haken zur Verfügung stellt. Es bietet eine hervorragende Qualität Stimmen, ein gutes „allgemeines“ Sprachwörterbuch, viele Kontrollen über die Aussprache und mehrere Sprachen. Es ist ein wenig teuer, aber sehr gut funktioniert.

Ich benutzen es wichtig Sensortelemetrie an den Fahrer in einer mobilen Sensor-Anwendung zu lesen. Wir hatten keine Beschwerden über die Sprachqualität. Es hatte etwa 75% out-of-the-box-Genauigkeit mit wissenschaftlichen Begriffen und ein viel höheren (vielleicht 90% +) mit normalen Dialog. Wir haben es auf etwa 99 +% Genauigkeit bis von Markups (die meisten Fehler waren auf wissenschaftlichen Begriffe mit ungewöhnlichen Phonemkombinationen) verwendet wird.

Es war ein wenig hart auf dem Prozessor (wir waren auf einer Pentium-III äquivalente Maschine laufen und es wurde 50% -75% Peak-CPU schieben). Dieser verwendet eine native Sprach-Engine (Windows, Linux und Mac-kompatibel) mit einer Java-Schnittstelle.

Es gibt eine große Auswahl an Stimmen und Sprachen ...

Ich habe FreeTTS hatte aber ein großes Problem die MBROLA Stimmen immer auf My MacbookPro laufen. Ich habe MBROLA Stimmen auf Windows (schmerzlich) und Linux laufen. Ich habe kein Glück hatte keine anderen Sprachpakete auf FreeTTS geladen, was schade ist, weil die gelieferten Stimmen IMO sind schrecklich. Außerhalb hatte ich einen wenig Erfolg mit Cloudgarden als gut, aber das läuft nur unter Windows AFAIK. Ich würde mich interessieren andere Erfolge / Miss mit Voice-Motoren, da diese Art von Arbeit zu hören ist besonders herausfordernd. Ich bin liebäugelt auch ein wenig mit Sphinx4. Ich zog gerade nach unten JVXML letzte Nacht (die basierend auf Sphinx4 zu sein scheint), aber konnte es nicht aus irgendeinem seltsamen Grund zu laufen.

Ich habe zu mary beigetragen. Ich fühle es Potenzial hat, wenn jemand klüger als ich die HMM Stimmen aus dem Kern getrennt (jene Stimmen, große Datensätze und Ton ok nicht brauchen). Ich versuche auch ein Event-System zu freetts zu tun Ereignisse zu senden, wenn es ein Wort sagt. Ich habe Erfolg gehabt, aber es ist jetzt in Linux gebrochen. (Wahrscheinlich wegen eines Timers bug).

Vielen Dank jedem, ist der Trick in FreeTTS Quelle. Kurz:. Wenn als java -jar freetts.jar some-more-args-here laufen wird, es buchstabiert weniger Worte als wenn sie in einer Art und Weise ist / server.jar und ist / client.jar ausgeführt wird,

Ich fand wenig komfortabel mit MarryTTS Es hat mehrere Sprachen und klare Stimme zu verstehen.

T convert Sprache in Text, desto besser optiion ist sphinx4-5prealpha . Ich gebe einen Daumen, denn es ist einstellbar hat, Flexibilität und modifizierbar Erkenner und grammer.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow