您会如何去一个口头语言比较的音频文件,并确定它们是否匹配?例如,如果我说“苹果”到我的iPhone应用程序,我想为它录制的声音,它与人的一个预先录制的音频文件说:“苹果”的比较。它应该是能够确定两个说出的词匹配。

什么样的算法或库的可能,我用它来执行这种基于语音的音频文件匹配的?

有帮助吗?

解决方案

斯芬克斯确实语音识别和pocketSphinx已经被移植到iPhone由Brian特大

检查 https://github.com/KingOfBrian/VocalKit

他提供了出色的细节,并使其易于实现自己。我碰到他的榜样和修改我自己的翻译。

其他提示

您应该仰望声纹看到维基下面的链接。 Shazam的基本上是做音乐。

http://en.wikipedia.org/wiki/Acoustic_fingerprint

我知道这个问题是旧的,但今天我发现了这个库:

http://www.ispikit.com/

您可以使用神经网络库,并教它识别不同的语音模式。这将需要一些诀窍神经网络的一般理论,以及如何落后,他们可以被用来创建将表现一种特殊的方式系统。如果你一无所知的主题,你可以开始上只是基础知识,然后使用一个库,而不是自己的东西实现。希望有所帮助。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top