Comment compareriez-vous un mot parlé dans un fichier audio?
-
27-09-2019 - |
Question
Comment feriez-vous comparer un mot parlé à un fichier audio et de déterminer si elles correspondent? Par exemple, si je dis « pomme » à mon application iPhone, je voudrais que pour enregistrer l'audio et le comparer avec un fichier audio préenregistré de quelqu'un dire « pomme ». Il devrait être en mesure de déterminer que les deux mots prononcés correspondent.
Quel type d'algorithme ou d'une bibliothèque pourrais-je utiliser pour effectuer ce genre de correspondance des fichiers audio basées sur la voix?
La solution
Sphinx fait la reconnaissance vocale et pocketsphinx a été porté sur l'iPhone par Brian King
https://github.com/KingOfBrian/VocalKit
Il a fourni d'excellents détails et rendu facile à mettre en œuvre pour vous-même. J'ai couru son exemple et modifié mon propre interprétation de celui-ci.
Autres conseils
Vous devriez consulter Acoustic Fingerprinting voir wikipedia lien ci-dessous. Shazam fait essentiellement pour la musique.
Je sais que cette question est vieux, mais j'ai découvert cette bibliothèque aujourd'hui:
Vous pouvez utiliser une bibliothèque de réseaux de neurones et l'enseigner à reconnaître les différents modèles de la parole. Cela nécessitera un certain savoir-faire derrière la théorie générale des réseaux de neurones et comment ils peuvent être utilisés pour créer des systèmes qui se comportent d'une manière particulière. Si vous ne savez rien sur le sujet, vous pouvez commencer uniquement sur les bases et ensuite utiliser une bibliothèque plutôt que de mettre en œuvre quelque chose de vous-même. Hope qui aide.