Как обнаружить голос из аудио -потока

https://stackoverflow.com/questions/8370173

27-10-2019
|

Вопрос

Мне нужно определить, когда кто -то говорит в аудио -потоке. Я применил окно Хамминга и рассчитал БПФ. Как я могу обнаружить человеческий голос отсюда?

Решение

Вам не нужно делать БПФ для этого, вам нужно реализовать Обнаружение голосовой активности алгоритм.

Другие советы

Если вы хотите экспериментировать с вашими собственными алгоритмами обнаружения голосовой активности, в качестве начальной стадии можно использовать FFT. Далее вы можете попробовать вычесть любой характерный стационарный фон спектрального шума. Затем вы можете попробовать использовать модифицированные результаты FFT для вычисления Cepstrum (или некоторых взвешенных коэффициентов Cepstral) для извлечения признаков. Затем вы можете сделать некоторое сопоставление статистических шаблонов на любых векторах функций, которые вы решили извлечь, и подарить результаты в алгоритм принятия решений.

Каждый из вышеперечисленных шагов, вероятно, был темой исследования, и хорошая реализация может включать в себя изучение десятков опубликованных исследовательских работ, которые, возможно, можно найти в вашей университетской библиотеке.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow