Как бы вы сравнивали произнесенное слово аудиофайлу?

https://stackoverflow.com/questions/4255359

27-09-2019
|

Вопрос

Как бы вы пошли по сравнению произнесенного слова к аудиофайлу и определению, если они совпадают? Например, если я говорю «Apple» к моему приложению iPhone, я хотел бы записать аудио и сравнить его с предварительно обработанным аудиофайлом кого-то, кто говорят «Apple». Он должен быть в состоянии определить, что два разговорных слова совпадают.

Какой алгоритм или библиотека я могу использовать для выполнения такого рода голосовой аудиофайла?

Решение

Сфинкс делает распознавание голоса, а Pocketsphinx были перенесены на iPhone by Brian King

Проверьте https://github.com/kingofbrian/voCalkit.

Он предоставил отличные детали и облегчил себе для себя. Я управляю его примером и модифицировал свое собственное исполнение этого.

Другие советы

Вы должны посмотреть акустическую отпечатка пальцев см. Ссылка в Википедии ниже. Шазам в основном делает это для музыки.

http://en.wikipedia.org/wiki/acoustic_fingerPrint.

Я знаю, что этот вопрос старый, но я обнаружил эту библиотеку сегодня:

http://www.ispikit.com/

Вы можете использовать библиотеку нейронных сетей и научить ее распознавать различные речевые шаблоны. Это потребует некоторых известных, как за общей теорией нейронных сетей и того, как их можно использовать для создания систем, которые будут вести себя определенным образом. Если вы ничего не знаете о предмете, вы можете начать только основы, а затем использовать библиотеку, а не реализую что-то самостоятельно. Надеюсь, это поможет.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow