¿Cómo compararía una palabra hablada a un archivo de audio?

https://stackoverflow.com/questions/4255359

27-09-2019
|

Pregunta

¿Cómo haría usted para comparar una palabra hablada a un archivo de audio y determinar si coinciden? Por ejemplo, si digo "manzana" a mi aplicación para iPhone, me gustaría que le permite grabar el audio y compararlo con un archivo de audio pregrabados de alguien diciendo "manzana". Debe ser capaz de determinar que los dos coinciden con las palabras habladas.

¿Qué tipo de algoritmo o biblioteca podría utilizar para llevar a cabo este tipo de coincidencia de archivo de audio basado en la voz?

Solución

Esfinge hace reconocimiento de voz y pocketSphinx ha sido portado al iPhone por Brian King

https://github.com/KingOfBrian/VocalKit

Se ha proporcionado excelentes detalles y hecho que sea fácil de aplicar por sí mismo. Me he encontrado su ejemplo y modificado mi propia versión de la misma.

Otros consejos

Se debe buscar huellas dactilares acústica ver wikipedia enlace de abajo. Shazam es, básicamente, haciendo por la música.

http://en.wikipedia.org/wiki/Acoustic_fingerprint

Sé que esta pregunta es viejo, pero descubrí esta biblioteca actual:

http://www.ispikit.com/

Se puede utilizar una biblioteca de redes neuronales y enseñar a reconocer los diferentes patrones de habla. Esto requerirá un poco conocimiento de cómo detrás de la teoría general de las redes neuronales y cómo pueden ser utilizados para crear sistemas que se comporten de una manera particular. Si usted no sabe nada sobre el tema, se puede empezar a trabajar en lo básico y luego usar una biblioteca en lugar de aplicar algo por sí mismo. Espero que ayude.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow