話し言葉をオーディオファイルとどのように比較しますか？

https://stackoverflow.com/questions/4255359

27-09-2019
|

質問

話し言葉をオーディオファイルと比較し、それらが一致するかどうかをどのように判断しますか？たとえば、iPhoneアプリケーションに「Apple」と言ったら、オーディオを録音し、「Apple」と言っている誰かの録音されたオーディオファイルと比較してほしいと思います。 2つの話し言葉が一致することを判断できるはずです。

この種の音声ベースのオーディオファイルマッチングを実行するために、どのようなアルゴリズムやライブラリを使用できますか？

解決

Sphinxは音声認識を行い、PocketsphinxはブライアンキングによってiPhoneに移植されました

小切手 https://github.com/kingofbrian/vocalkit

彼は優れた詳細を提供し、自分のために簡単に実装しました。私は彼の模範を実行し、自分の演出を修正しました。

他のヒント

アコースティックフィンガープリントを調べてください。以下のウィキペディアリンクを参照してください。 Shazamは基本的に音楽のためにやっています。

http://en.wikipedia.org/wiki/acoustic_fingerprint

私はこの質問が古いことを知っていますが、今日このライブラリを発見しました：

http://www.ispikit.com/

ニューラルネットワークライブラリを使用して、さまざまな音声パターンを認識するように教えることができます。これには、ニューラルネットワークの一般的な理論の背後にある方法と、特定の方法で動作するシステムを作成するためにそれらをどのように使用できるかを知る必要があります。主題について何も知らない場合は、自分で何かを実装するのではなく、基本だけで始めて、ライブラリを使用できます。それが役立つことを願っています。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow