¿Cómo compararía una palabra hablada a un archivo de audio?
-
27-09-2019 - |
Pregunta
¿Cómo haría usted para comparar una palabra hablada a un archivo de audio y determinar si coinciden? Por ejemplo, si digo "manzana" a mi aplicación para iPhone, me gustaría que le permite grabar el audio y compararlo con un archivo de audio pregrabados de alguien diciendo "manzana". Debe ser capaz de determinar que los dos coinciden con las palabras habladas.
¿Qué tipo de algoritmo o biblioteca podría utilizar para llevar a cabo este tipo de coincidencia de archivo de audio basado en la voz?
Solución
Esfinge hace reconocimiento de voz y pocketSphinx ha sido portado al iPhone por Brian King
https://github.com/KingOfBrian/VocalKit
Se ha proporcionado excelentes detalles y hecho que sea fácil de aplicar por sí mismo. Me he encontrado su ejemplo y modificado mi propia versión de la misma.
Otros consejos
Se debe buscar huellas dactilares acústica ver wikipedia enlace de abajo. Shazam es, básicamente, haciendo por la música.
Sé que esta pregunta es viejo, pero descubrí esta biblioteca actual:
Se puede utilizar una biblioteca de redes neuronales y enseñar a reconocer los diferentes patrones de habla. Esto requerirá un poco conocimiento de cómo detrás de la teoría general de las redes neuronales y cómo pueden ser utilizados para crear sistemas que se comporten de una manera particular. Si usted no sabe nada sobre el tema, se puede empezar a trabajar en lo básico y luego usar una biblioteca en lugar de aplicar algo por sí mismo. Espero que ayude.