Pregunta

Tenemos un poco de audio de voz en bruto que necesitamos distribuir a través de Internet. Necesitamos una calidad decente, pero no tiene que ser de calidad musical. Nuestra principal preocupación es la facilidad de uso por parte del consumidor (es decir, qué y dónde pueden jugar) y el tamaño de la descarga. Mi experiencia ha demostrado que los mp3 no producen los mejores números de compresión para el audio de voz, pero no sé cuáles son las mejores alternativas. En última instancia, nos gustaría automatizar el proceso de conversión para permitir que el consumidor elija el nivel de calidad frente a tamaño que desee.

¿Fue útil?

Solución

Comience aquí.

Como bien señala, la compresión de voz es diferente de la compresión de audio general. Encontrará muchos códecs dedicados a aplicaciones de telefonía, desde PCM y ADPCM hasta codificaciones posteriores basadas en paquetes, como el CELP utilizado en redes celulares GSM.

Sin embargo, la codificación de voz VOIP es ligeramente diferente a la del medio utilizado. puede encontrar una buena biblioteca gratuita (sin gravámenes y de código abierto (BSD)) para codificación / decodificación de voz en Speex biblioteca de software .

Nuevamente, lo que elija depende del discurso que está codificando y del medio por el que se transmite. También tenga en cuenta que muchas bibliotecas tienen varios algoritmos que pueden usar según las circunstancias, y algunas incluso cambiarán al vuelo según las condiciones del sonido y la red.

Para obtener más ayuda, reduce tu pregunta.

-Adam

Otros consejos

Deberías probar Opus . Ejemplo de línea de comando de compresión:

ffmpeg -i x.wav -b:a 32k x.opus

Los formatos de compresión utilizados con más frecuencia en el audio de voz en vivo (como la telefonía VoIP) son & # 956; -Law (mu-Law / u-Law en los EE. UU.) y a-Law (utilizados en Europa, etc.) .) que, a diferencia de PCM sin comprimir, no es compatible con un rango de frecuencias tan amplio (un rango más pequeño de valores posibles ignora los sonidos fuera del espectro necesario y requiere menos espacio para almacenar).

Por razones de facilidad de uso, es más fácil usar compresiones de mpeg (mp2 / 3/4) para transmitir a los reproductores de medios estándar, ya que los algoritmos están disponibles y son bastante rápidos y casi todos los reproductores de medios deberían admitirlo, pero para la voz es posible. intente especificar una tasa de bits inferior o realice la conversión de un archivo de menor calidad en primer lugar (WAV puede tener varias tasas de muestreo y la voz requiere una tasa de muestreo mucho menor que la música o los efectos, es básicamente como un cuadro por segundo en el video ). Alternativamente, puede usar Real Media, WMA u otros formatos patentados, pero esto limitaría la facilidad de uso ya que los usuarios necesitarían software de terceros específico para la reproducción, aunque WMA tiene una excelente relación de compresión y opciones de compresión específicas para el audio de voz.

Suponiendo que sus usuarios ejecutarán Windows, hay un códec de compresión de voz WMA que puede usar con el SDK del codificador de Windows Media. De lo contrario, puede usar ACM para usar algo como G723 / G728, ADPCM, mu-law o a-law, algunos de los cuales están instalados como estándar en Windows XP & amp; encima. Estos pueden ser empaquetados dentro de archivos WAV. Tendrá que experimentar un poco para encontrar la tasa de bits / calidad correcta (probablemente no se moleste con la ley de mu o la ley de a). Con los datos de voz, puede salirse con frecuencias de muestreo bastante bajas, por ejemplo, 16000 u 8000, ya que no hay mucho más de 4Khz en la voz hablada.

Creo que AMR es uno de los mejores códecs de voz. Lo estaba usando hace aproximadamente un año y recuerdo que la calidad era muy buena y los niveles de tamaño eran bastante pequeños.

Un inconveniente, especialmente en su caso es que, por lo que sé, no es compatible con una amplia gama de reproductores multimedia. QuickTime y RealPlayer son dos que sé que reproducen archivos .amr.

Pruebe speex ... sin restricciones de patentes, buen rendimiento tanto en tamaño como en CPU. He tenido buena suerte al usarlo en iPhone.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top