Pregunta

¿Hay alguien que tenga experiencia con alguna fuente abierta o una API de reconocimiento de voz relativamente barata para Java? Estoy casi buscando algo que convertirá las palabras habladas en texto.

Desde la página de reconocimiento de voz de Java en sun, parece que es algo que está bastante muerto. Mis requisitos son algo que al menos se ejecuta en Linux.

¿Alguien puede recomendar algo? Pure Java sería una ventaja, de lo contrario se podría considerar una solución basada en Linux. Y ya que este es un proyecto de hogar ... cuanto más barato, mejor.

  • Editar

Esfinge de CMU Como Amit señaló CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Mi problema es una enorme tasa de error de palabra. La capacitación parece ser un proyecto en sí mismo, espero reunir fuerzas para intentarlo este fin de semana.

IBM ViaVoice
Hay anuncios de noticias flotando alrededor de 2004 sobre
Vía la voz se está convirtiendo en código abierto . Parece que el comunicado de prensa fue prematuro y que nunca sucedió. VIA Voice se lanzado para Linux en algún momento, pero Parece que se detuvieron. Todo lo que parece quedar en el sitio web de IBM es ViaVoice incrustado .

IBM Websphere Voice
Me imagino que esta es la razón por la que ViaVoice (escritorio) parece descontinuado. IBM creó esta solución comercial que costará más que un brazo y una pierna. Y solo usándolo tomará los que te quedan, al menos después de mi experiencia con websphere y su IDE.

Nuance
Parece que todavía podrían crear productos para Linux. Pero creo que se perdieron y siguieron a IBM en el mercado de servidores. No estoy seguro de esto, su sitio web no es tan fácil de encontrar información útil.

Open Mind / Free Speech
Estos chicos siguen cambiando el nombre de su proyecto. Probablemente alguna compañía hambrienta de dinero sigue amenazándolos, pero no lo sé. El proyecto se ve un poco muerto.

Podría intentar entrenar a Sphinx este fin de semana para ver si quiere ser amigo. En el peor de los casos, analizaré el uso de la solución de voz de Microsoft. En el pasado me ha funcionado bien, pero no es una gran solución de Linux. Probablemente podría usarlo a través del vino, pero luego tendré dos servidores separados ... desordenados.

Ah, y lo que parece un buen lugar para visitar para voz / habla SpeechTechMag . Tienen una 'Referencia anual' que tiene una lista de compañías que de alguna manera se relacionan con la voz o el habla.

¿Fue útil?

Otros consejos

sphinx es, con mucho, la mejor opción disponible si tiene un presupuesto limitado.  sin embargo, también hace una diferencia enorme sobre los modelos que usa, cómo los sintoniza y cómo ajusta su fuente de audio. absolutamente todo tiene que coincidir de lo contrario simplemente no funcionará. dado el problema que describiste, estar dispuesto a apostar una suma sustancial de que tienes tus modelos mezclados y tu micrófono no está calibrado correctamente. Además, si tiene un acento, es probable que no funcione. Esto no es un problema con el decodificador sino con los modelos acústicos. Si no se incluyó a nadie con una voz / acento similar al suyo en los datos de entrenamiento, obtendrá malos resultados. .

Dicho esto, ¿has mirado su página de modelos de código abierto?

http://www.speech.cs.cmu.edu/sphinx/ modelos /

dependiendo de lo que esté intentando hacer, debería poder obtener aproximadamente el 90% de precisión en la voz libre con los modelos WSJ de 16 kHz y el NVP de LM de palabras clave. Sin embargo, advierto que el ASR es una empresa masiva y aún no ha alcanzado el estado de productos básicos.

puede descargar vPass (contraseña de voz) desde http://www.basic-signalprocessing.com .

Para (vText) voz a texto, puedo enviar el archivo vText.jar a su correo electrónico. Por favor notifique a enquiry@basic-signalprocessing.com

Los componentes están diseñados para Java y .Net. El periodo de reconocimiento es de 5 segundos. VPass está bien probado. VText no es, todavía es nuevo, por eso aún no está empaquetado.

saludos, Andreas

He estado buscando lo mismo desde hace unos días. Hasta ahora he encontrado Sphinx4 y FreeTTS. Ambas son implementaciones de java y parece que Sphinx se actualiza con bastante frecuencia a diferencia de FreeTTS. El único problema que tengo es que Sphinx está teniendo problemas para entenderme en un entorno de oficina, y necesito una solución para un entorno de almacén.

Mi grupo terminó un mini programa en Java para reconocer los dígitos hablados usando Sphinx .

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top