Riconoscimento vocale Java

https://stackoverflow.com/questions/609528

03-07-2019
|

Domanda

C'è qualcuno che ha esperienza con qualche open source o API di riconoscimento vocale relativamente economica per Java? Sto praticamente cercando qualcosa che trasformi le parole pronunciate in testo.

Dalla pagina di riconoscimento vocale di Java sul sole, sembra che sia piuttosto morto. Le mie esigenze sono qualcosa che almeno gira su Linux.

Qualcuno può consigliare qualcosa? Pure Java sarebbe un bonus, altrimenti una soluzione basata su Linux potrebbe essere considerata. E poiché questo è un progetto a casa ... più economico è, meglio è.

Modifica

Sfinge CMU Come ha sottolineato Amit CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Il mio problema è un enorme tasso di errori di parole. La formazione sembra un progetto tutto in sé, spero di raccogliere un po 'di forza per provarlo questo fine settimana.

IBM ViaVoice
Ci sono annunci di notizie in circolazione per il 2004 su Via Voice reso open source . Sembra che il comunicato stampa sia stato prematuro e che non sia mai successo. VIA Voice è stato rilasciato per Linux ad un certo punto, ma Sembra che si siano fermati. Tutto ciò che sembra essere lasciato sul sito Web di IBM è ViaVoice embedded .

IBM Websphere Voice
Immagino sia per questo che ViaVoice (desktop) sembra interrotto. IBM ha creato questa soluzione commerciale che costerà molto più di un braccio e una gamba. E solo usarlo prenderà quelli che ti sono rimasti, almeno dopo la mia esperienza con websphere e il loro IDE.

Nuance
Sembra che potrebbero ancora creare prodotti per Linux. Ma penso che si siano persi e abbiano seguito IBM nel mercato dei server. Non ne sono così sicuro, il loro sito web non è così amichevole nel trovare informazioni utili.

Open Mind / Free Speech
Questi ragazzi continuano a cambiare il nome del loro progetto. Probabilmente qualche compagnia affamata di soldi continua a minacciarli, ma non lo so. Il progetto sembra un po 'morto.

Potrei provare ad allenare Sphinx questo fine settimana per vedere se vuole essere amico. In caso contrario, vedrò come utilizzare la soluzione vocale di Microsoft. Ha funzionato bene per me in passato, ma non è un'ottima soluzione per Linux. Probabilmente potrei usarlo attraverso wine, ma poi avrò due server separati ... disordinato disordinato.

Oh e quello che sembra un buon posto da visitare per voce / discorso SpeechTechMag . Hanno un "riferimento annuale" che ha un elenco di aziende che in qualche modo si relazionano alla voce / discorso.

Soluzione

Principalmente Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php

Altri suggerimenti

sfinge è di gran lunga l'opzione migliore disponibile se hai un budget limitato. tuttavia fa anche una enorme differenza tra i modelli che usi, come li sintonizzi e come sintonizzi la tua sorgente audio. assolutamente tutto deve corrispondere altrimenti non funzionerà. dato il problema che hai descritto, sarei disposto a scommettere una somma sostanziale che hai ottenuto che hai mischiato i tuoi modelli e che il tuo microfono non è calibrato correttamente. inoltre, se hai un accento probabilmente non funzionerà - questo non è un problema con il decodificatore ma con i modelli acustici - se nessuno con una voce / accento simile al tuo è stato incluso nei dati di allenamento otterrai risultati scarsi .

detto questo, hai dato un'occhiata alla loro pagina dei modelli open source?

http://www.speech.cs.cmu.edu/sphinx/ modelli /

a seconda di ciò che si sta tentando di fare, si dovrebbe essere in grado di ottenere circa il 90% di precisione sulla libertà di parola con i modelli WSJ 16kHz e NVP gigaword LMs. avverto tuttavia che ASR è un'impresa enorme e non ha ancora raggiunto lo status di merce.

puoi scaricare vPass (password vocale) da http://www.basic-signalprocessing.com .

Per (vText) voice to text, posso inviare il file vText.jar alla tua email. Si prega di comunicare a enquiry@basic-signalprocessing.com

I componenti sono progettati per il linguaggio Java e .Net. Il periodo di riconoscimento è di 5 secondi. VPass è ben testato vText non è, è ancora nuovo, ecco perché non ancora confezionato.

saluti, Andreas

Sto cercando la stessa cosa da alcuni giorni. Finora ho trovato Sphinx4 e FreeTTS. Entrambe sono implementazioni Java e Sphinx sembra che sia aggiornato piuttosto frequentemente a differenza di FreeTTS. L'unico problema che sto riscontrando è che Sphinx ha problemi a capirmi in un ambiente di ufficio e ho bisogno di una soluzione per un ambiente di magazzino.

Il mio gruppo ha terminato un mini programma in Java per riconoscere le cifre vocali usando Sphinx .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow