Domanda

Come si va sul confronto una parola detta a un file audio e determinare se corrispondono? Per esempio, se dico "mela" per la mia applicazione per iPhone, vorrei che per registrare l'audio e confrontarla con un file audio preregistrato di qualcuno che dice "mela". Dovrebbe essere in grado di determinare che le due parole pronunciate corrispondono.

Che tipo di algoritmo o libreria Potrei usare per eseguire questo tipo di corrispondenza file audio vocale-based?

È stato utile?

Soluzione

Sfinge fa il riconoscimento vocale e pocketsphinx è stato portato su l'iPhone da Brian King

https://github.com/KingOfBrian/VocalKit

E 'fornito ottimi dettagli e reso più facile da implementare per voi stessi. Ho eseguito il suo esempio e modificato la mia interpretazione di esso.

Altri suggerimenti

Si dovrebbe cercare Acoustic Fingerprinting vedi wikipedia link qui sotto. Shazam è fondamentalmente facendo per la musica.

http://en.wikipedia.org/wiki/Acoustic_fingerprint

So che questa domanda è vecchio, ma ho scoperto questa libreria oggi:

http://www.ispikit.com/

È possibile utilizzare una libreria di reti neurali e insegnare a riconoscere i diversi modelli di discorso. Ciò richiederà un certo know how dietro la teoria generale delle reti neurali e come possono essere utilizzati per creare sistemi che si comporteranno un modo particolare. Se non si sa nulla su questo argomento, si può iniziare il solo le basi e quindi utilizzare una libreria piuttosto che attuare qualcosa di te stesso. Speranza che aiuta.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top