Как бы вы сравнивали произнесенное слово аудиофайлу?
-
27-09-2019 - |
Вопрос
Как бы вы пошли по сравнению произнесенного слова к аудиофайлу и определению, если они совпадают? Например, если я говорю «Apple» к моему приложению iPhone, я хотел бы записать аудио и сравнить его с предварительно обработанным аудиофайлом кого-то, кто говорят «Apple». Он должен быть в состоянии определить, что два разговорных слова совпадают.
Какой алгоритм или библиотека я могу использовать для выполнения такого рода голосовой аудиофайла?
Решение
Сфинкс делает распознавание голоса, а Pocketsphinx были перенесены на iPhone by Brian King
Проверьте https://github.com/kingofbrian/voCalkit.
Он предоставил отличные детали и облегчил себе для себя. Я управляю его примером и модифицировал свое собственное исполнение этого.
Другие советы
Вы должны посмотреть акустическую отпечатка пальцев см. Ссылка в Википедии ниже. Шазам в основном делает это для музыки.
Я знаю, что этот вопрос старый, но я обнаружил эту библиотеку сегодня:
Вы можете использовать библиотеку нейронных сетей и научить ее распознавать различные речевые шаблоны. Это потребует некоторых известных, как за общей теорией нейронных сетей и того, как их можно использовать для создания систем, которые будут вести себя определенным образом. Если вы ничего не знаете о предмете, вы можете начать только основы, а затем использовать библиотеку, а не реализую что-то самостоятельно. Надеюсь, это поможет.