Wie würden Sie ein gesprochenes Wort in eine Audiodatei vergleichen?

https://stackoverflow.com/questions/4255359

27-09-2019
|

Frage

Wie würden Sie gehen über ein gesprochenes Wort in eine Audiodatei zu vergleichen und zu bestimmen, ob sie übereinstimmen? Zum Beispiel, wenn ich „apple“ auf meine iPhone Anwendung sagen, würde Ich mag es die Audio-und vergleichen Sie es mit einer voraufgezeichneten Audiodatei von jemandem sagen: „Apfel“ aufzunehmen. Es sollte in der Lage sein, festzustellen, dass die beiden gesprochenen Worte entsprechen.

Welche Art von Algorithmus oder Bibliothek konnte ich diese Art von sprachbasierten Audiodatei Anpassung durchführen?

Lösung

Sphinx macht Spracherkennung und pocket hat auf das iPhone von Brian King portiert

https://github.com/KingOfBrian/VocalKit

Er hat ausgezeichnete Details zur Verfügung gestellt und es leicht gemacht, für sich selbst zu implementieren. Ich habe seine Beispiel laufen und meine eigene Interpretation davon modifiziert.

Andere Tipps

Sie sollten sehen Acoustic Fingerprinting siehe wikipedia Link unten. Shazam tut es im Grunde für die Musik.

http://en.wikipedia.org/wiki/Acoustic_fingerprint

Ich weiß, diese Frage ist alt, aber ich entdeckte diese Bibliothek heute:

http://www.ispikit.com/

Sie können eine neuronale Netze Bibliothek verwenden und lehren es verschiedene Sprachmuster zu erkennen. Dies wird einige Know erfordern, wie hinter der allgemeinen Theorie der neuronalen Netze und wie sie verwendet werden können, Systeme zu schaffen, die eine bestimmte Art und Weise verhalten. Wenn Sie nichts über das Thema wissen, können Sie nur auf die Grundlagen beginnen und dann eine Bibliothek verwenden, anstatt selbst etwas zu implementieren. Ich hoffe, das hilft.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow