API de texto a voz (generación de voz) y de voz a texto (reconocimiento de voz)?

https://stackoverflow.com/questions/6348770

27-10-2019
|

Pregunta

¿Existe una lista completa de API conocidas para entornos de escritorio o navegador?

Solución

Rehaceré y actualizaré una respuesta de ¿Reconocimiento de voz en C o Java o PHP?. Esto de ninguna manera es integral, pero podría ser un comienzo para ti

Desde ver estas preguntas durante unos meses, he visto que la mayoría de las opciones de desarrolladores se rompen así:

Folks de Windows: use las características de System.Speech de .NET o Microsoft.Speech e instale los reconocedores gratuitos que proporciona Microsoft. Windows 7 incluye un motor de voz completo. Otros se pueden descargar de forma gratuita. Hay una API C ++ en los mismos motores conocidos que SAPI. Ver en http://msdn.microsoft.com/en-us/magazine/cc163663.aspx. o http://msdn.microsoft.com/en-us/library/ms723627(v=vs.85).aspx. Más antecedentes sobre motores de Microsoft para Windows¿Cuál es la diferencia entre System.speech.Recognition y Microsoft.speech.Cognition?

Folks de Linux: Sphinx parece tener un buen seguimiento. Ver http://cmusphinx.sourceforge.net/ y http://cmusphinx.sourceforge.net/wiki/

Productos comerciales - Matiz, Loquendo, AT&T, IBM, otros. Cada uno proporciona sus propios SDK y bibliotecas para varios idiomas.

Servicio en línea - Matiz, Yapme, ispeech.org, vlingo, otros. Nuance ha mejorado su programa de desarrolladores y ahora le dará acceso gratuito a sus servicios Para desarrollo. Yap (creo) fue recientemente Comprado por Amazon, por lo que podemos ver algunos cambios allí.

Por supuesto, esto también puede ser útil - http://en.wikipedia.org/wiki/list_of_speech_recognition_software

Hay una API del discurso de Java. Ver javax.speech.Recognition en la API del discurso de Java http://java.sun.com/products/java-media/speech/fordevelopers/jsapi-guide/recognition.html. Creo que todavía tienes que encontrar un motor de habla que respalde esta API. No creo que Sphinx lo admita plenamente - http://cmusphinx.sourceforge.net/sphinx4/doc/sphinx4-faq.html#support_jsapi

Hay muchas otras quesitons:Necesita herramientas de reconocimiento de voz y habla para Linuxy Pyspeech (Python) - ¿Transcripción de archivos MP3? que habla de http://code.google.com/p/pyspeech/. Es posible que también desee mirar http://code.google.com/p/dragonfly/

Otros consejos

Los principales proveedores de API de texto a discurso (generación de voz) son ¡Yakitome! e ispeech. ¡Yakitome! es el que uso porque me gusta más su calidad de voz y son los menos costosos (en su mayoría gratis). Apoyan a los altavoces masculinos y femeninos en múltiples idiomas. Algunos de los vendedores de voz, como Acapella, Nuance, Lobendo e Ivona tienen voces decentes, pero tienden a ser costosas de usar.

Así es como puede hacerlo: Nota: es una API de Google, por lo que solo funciona en Chrome Browser.

(Consulte la demostración en vivo y descargue el código fuente completo aquí http://purpledesign.in/blog/?p=33)

Defina un botón

<input id="speech" type="text" speech="speech" x-webkit-speech="x-webkit-speech" onspeechchange="processspeech();" onwebkitspeechchange="processspeech();" />

y defina lo que desea hacer en una función en su archivo JavaScript

Como esto

   function processspeech()
   {
     var speechtext=$("#speech").val();
     var elem = document.getElementById("test");
     elem.value = speechtext;
     var notification="\"<span style=\"color:#F00; text-transform:uppercase;\">"+  speechtext + "</span>\" <br />*Is this what you said???";
    notify(notification);
}

Aquí

<textarea> id="test"></textarea>

El discurso está escrito en TextARea

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow