Comment compareriez-vous un mot parlé dans un fichier audio?

https://stackoverflow.com/questions/4255359

27-09-2019
|

Question

Comment feriez-vous comparer un mot parlé à un fichier audio et de déterminer si elles correspondent? Par exemple, si je dis « pomme » à mon application iPhone, je voudrais que pour enregistrer l'audio et le comparer avec un fichier audio préenregistré de quelqu'un dire « pomme ». Il devrait être en mesure de déterminer que les deux mots prononcés correspondent.

Quel type d'algorithme ou d'une bibliothèque pourrais-je utiliser pour effectuer ce genre de correspondance des fichiers audio basées sur la voix?

La solution

Sphinx fait la reconnaissance vocale et pocketsphinx a été porté sur l'iPhone par Brian King

https://github.com/KingOfBrian/VocalKit

Il a fourni d'excellents détails et rendu facile à mettre en œuvre pour vous-même. J'ai couru son exemple et modifié mon propre interprétation de celui-ci.

Autres conseils

Vous devriez consulter Acoustic Fingerprinting voir wikipedia lien ci-dessous. Shazam fait essentiellement pour la musique.

http://en.wikipedia.org/wiki/Acoustic_fingerprint

Je sais que cette question est vieux, mais j'ai découvert cette bibliothèque aujourd'hui:

http://www.ispikit.com/

Vous pouvez utiliser une bibliothèque de réseaux de neurones et l'enseigner à reconnaître les différents modèles de la parole. Cela nécessitera un certain savoir-faire derrière la théorie générale des réseaux de neurones et comment ils peuvent être utilisés pour créer des systèmes qui se comportent d'une manière particulière. Si vous ne savez rien sur le sujet, vous pouvez commencer uniquement sur les bases et ensuite utiliser une bibliothèque plutôt que de mettre en œuvre quelque chose de vous-même. Hope qui aide.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow