Java Spracherkennung

https://stackoverflow.com/questions/609528

03-07-2019
|

Frage

Gibt es jemanden, der Erfahrung mit Open Source-hat, oder relativ billig Spracherkennung API für Java? Ich bin so ziemlich die Suche nach etwas, das gesprochene Wort in Text verwandeln wird.

Von der Java-Spracherkennung Seite auf Sonne, scheint es, dass es etwas ist, das eher tot ist. Meine Anforderungen sind etwas, das zumindest unter Linux läuft.

Kann jemand etwas empfehlen? Pure Java wäre ein Bonus, sonst eine Linux-basierte Lösung in Betracht gezogen werden könnte. Und da es sich um ein Haus-Projekt ... die billiger, desto besser.

Bearbeiten

CMU Sphinx Wie Amit wies darauf hin, CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Mein Problem ist ein massiver Wortfehlerrate. Training scheint wie ein Projekt alle in sich selbst, ich bin der Hoffnung, etwas Kraft zu sammeln es an diesem Wochenende zu versuchen.

IBM ViaVoice
Es gibt Nachrichten Ankündigungen rund um für das Jahr 2004 floating über Via Voice-Open-Source- gemacht. Es scheint, die Pressemitteilung war verfrüht und dass es nie passiert. VIA Stimme für Linux irgendwann veröffentlicht, aber es scheint, sie gestoppt. Alle, die auf der IBM Website verlassen zu werden scheint, ist ViaVoice eingebettet .

IBM Websphere Voice-
Ich stelle mir das ist, warum ViaVoice (Desktop) eingestellt zu sein scheint. IBM hat diese kommerzielle Lösung, die zuzuteilen mehr als einen Arm und ein Bein kosten. Und nur mit es werden diejenigen nehmen Sie verlassen haben, zumindest nach meiner Erfahrung mit Websphere und ihre IDE.

Nuance
Es scheint, sie noch Produkte für Linux schaffen könnten. Aber ich denke, sie haben verloren und gefolgt von IBM in den Server-Markt. Ich bin nicht so sicher, über diese ein, ihre Web-Site bei der Suche nach nützlichen Informationen nicht so freundlich ist.

Open Mind / Free Speech
Diese Jungs halten ihre Projektnamen zu ändern. Wahrscheinlich hält etwas Geld hungrig Unternehmen sie bedrohlich, aber ich weiß nicht. Das Projekt sieht ein bisschen tot.

Ich könnte versuchen, dieses Wochenende Training Sphinx zu sehen, ob es will, Freunde sein. Else schlimmer Fall werde ich bei Verwendung von Microsoft-Rede Lösung suchen. Es hat sich für mich in der Vergangenheit gut funktioniert, aber es ist nicht eine große Linux-Lösung. Ich könnte wahrscheinlich es durch Wein verwenden, aber dann werde ich habe zwei separate Server ... unordentlich chaotisch.

Oh, und was einen guten Platz scheint für Stimme / Sprache zu besuchen SpeechTechMag . Sie haben eine ‚Anual Reference‘, die eine Liste von Unternehmen hat, die sich irgendwie bezieht sich auf Sprach / Rede.

Lösung

Meist Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php

Andere Tipps

Sphinx ist bei weitem die beste Option zur Verfügung, wenn Sie auf einem Etat sind. aber es macht auch eine großen Unterschied, welche Modelle Sie verwenden, wie Sie stimmen sie und , wie Sie abstimmen Audioquelle. absolut alles, was sonst passen sie nicht funktionieren einfach. angesichts des Problems Sie id bereit sein, beschrieben eine beträchtliche Summe wetten, die Sie haben, Sie haben Ihre Modelle gemischt und Ihr Mikrofon nicht richtig kalibriert ist. auch, wenn Sie einen Akzent haben wahrscheinlich wird es nicht funktionieren - das ist nicht ein Problem mit dem Decoder, sondern mit den akustischen Modellen - wenn niemand mit einer Stimme / Akzente ähnlich wie bei Ihnen in den Trainingsdaten enthalten war Sie schlechte Ergebnisse erhalten werden .

, daß das, haben Sie sich ihre Open-Source-Modelle Seite?

http://www.speech.cs.cmu.edu/sphinx/ models /

je nachdem, was Sie versuchen, etwa 90% Genauigkeit auf die Meinungsfreiheit mit den 16kHz WSJ-Modellen und der gigaword LMs NVP zu tun, sollten Sie in der Lage zu erhalten. Ich warne jedoch, dass ASR ein massives Unternehmen ist und noch nicht Warenstatus erreicht hat.

können Sie herunterladen vpass (Stimme Passwort) von http://www.basic-signalprocessing.com .

(vText) Stimme zu Text, kann ich die vText.jar Datei an Ihre E-Mail senden. Pls informieren enquiry@basic-signalprocessing.com

Die Komponenten sind für Java und .NET-Sprache entwickelt. Die Erkennungszeit beträgt 5 Sekunden. Vpass ist gut getestet vText ist nicht, noch neu, deshalb noch nicht verpackt.

Grüße, Andreas

Ich habe jetzt die gleiche Sache für ein paar Tage gesucht. Bisher habe ich Sphinx4 und FreeTTS gefunden. Beide sind Java-Implementierungen und Sphinx scheint, wie es aktualisiert wird ziemlich häufig im Gegensatz zu FreeTTS. Das einzige Problem, das ich habe ist, dass Sphinx mir hat Probleme Verständnis in einer Büroumgebung, und ich brauche eine Lösung für eine Warehouse-Umgebung.

Meine Gruppe beendet ein Mini-Programm in Java zu gesprochenen Ziffern erkennen mit Sphinx .

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow