Cómo detectar la voz de una transmisión de audio

https://stackoverflow.com/questions/8370173

27-10-2019
|

Pregunta

Necesito determinar cuándo alguien habla en una transmisión de audio. Apliqué la ventana Hamming y calculé el FFT. ¿Cómo detecto la voz humana desde aquí?

Solución

No necesita hacer un FFT para esto, debe implementar un Detección de actividad de voz algoritmo.

Otros consejos

Si desea experimentar con sus propios algoritmos de detección de actividad de voz, se puede usar un FFT como etapa inicial. A continuación, es posible que desee restablecer cualquier fondo de ruido espectral estacionado caracterizado. Luego, puede intentar usar los resultados de FFT modificados para calcular un cepstrum (o algunos coeficientes cepstrales ponderados) para la extracción de características. Luego podría hacer una coincidencia de patrón estadístico en cualquier vectores de características que haya decidido extraer y alimentar los resultados a un algoritmo de decisión.

Es probable que cada uno de los pasos anteriores haya sido un tema de investigación, y una buena implementación podría implicar estudiar docenas de trabajos de investigación publicados, que tal vez se pueden encontrar en su biblioteca universitaria.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow