Pergunta

Temos algum áudio de voz crua que precisamos para distribuir através da internet. Precisamos de qualidade decente, mas não precisa ser de qualidade musical. A nossa principal preocupação é a usabilidade pelo consumidor (ou seja, o que e onde eles podem reproduzi-lo) eo tamanho do download. Minha experiência tem mostrado que mp3s não produzem os melhores números de compressão para áudio de voz, mas eu estou em uma perda para o que as melhores alternativas. Em última análise, gostaríamos de automatizar o processo de conversão para permitir que o consumidor possa escolher o nível de qualidade Tamanho vs. que eles gostariam.

Foi útil?

Solução

Iniciar aqui.

Como você observam com razão, compressão de voz é diferente de compressão de áudio geral. Você vai encontrar muitos codecs dedicadas a aplicações de telefonia, que vão desde PCM e ADPCM através de codificações de pacotes baseados posteriores, como CELP usado em redes celulares GSM.

Ainda assim, codificação de voz VOIP é ligeiramente diferente do que devido ao meio utilizado. você pode encontrar um bom, livre (livre e de código aberto (BSD)) biblioteca para codificação de voz / decodificação no Speex biblioteca de software .

Mais uma vez, o que você escolhe depende do discurso que você está codificação e o meio que está sendo transmitida através. Observe também que muitas bibliotecas têm vários algoritmos podem usar dependendo das circunstâncias, e alguns vão mesmo mudar na mosca com base nas condições do som e de rede.

Para obter mais ajuda, estreitar sua pergunta para baixo.

-Adam

Outras dicas

Você deve dar Opus uma tentativa. Exemplo linha de comando de compressão:

ffmpeg -i x.wav -b:a 32k x.opus

Os formatos de compressão mais frequentemente usado no áudio de voz ao vivo (como a telefonia VoIP) são µ-Law (mu-Law / u-Law é usado nos EUA) e um-Law (usado na Europa, etc.) que , ao contrário Uncompressed PCM, não suportam tão grande de uma faixa de freqüência (um intervalo menor de valores possíveis ignora sons fora do espectro necessário e requer menos espaço para armazenamento).

Por amor usabilidade é mais fácil de usar compressões MPEG (MP2 / 3/4) para streaming de media players padrão como os algoritmos estão prontamente disponíveis e geralmente muito rápido e quase todos os players de mídia deve apoiá-lo, mas para voz que você pode tentar especificar uma taxa de bits inferior ou fazer a sua conversão de um arquivo de menor qualidade em primeiro lugar (WAV pode estar em várias taxas de amostragem e de voz requer uma taxa de amostragem menor tanto de música ou efeitos, é basicamente como quadros por segundo em vídeo ). Alternativamente, você pode usar Real Media, WMA ou outros formatos proprietários, mas isso iria limitar a usabilidade já que os usuários exigiria software de terceiros específico para a reprodução, embora WMA tem uma taxa de compressão excelente, bem como opções de compressão específico para áudio de voz.

Assumindo que os usuários irão estar executando o Windows, há um discurso WMA compressão codec que você pode usar com o Windows Media Encoder SDK. Se isso falhar, você pode usar ACM usar algo como G723 / G728, ADPCM, mu-lei ou uma lei, alguns dos quais são instalados como padrão no Windows XP e acima. Estes podem ser embalados dentro de arquivos WAV. Você precisa experimentar um pouco para encontrar o direito de taxa de bits / qualidade (provavelmente não se incomodam com mu-lei ou uma lei). Com dados de voz que você pode sair com taxas de amostragem muito baixa - por exemplo, 16000 ou 8000, como não há muito acima 4khz na voz falada humana.

AMR é um dos melhores codecs de voz. Eu estava usando cerca de um ano atrás, e eu me lembro que a qualidade foi muito boa e os níveis de tamanho foram bastante pequenas.

Uma desvantagem, especialmente no seu caso é que, tanto quanto eu sei, não é apoiada por ampla gama de players de mídia. QuickTime e RealPlayer são dois que eu sei jogar .amr arquivos.

Tente speex ... livre de patentes, o bom desempenho tanto sizewise e CPU-wise. Eu tenho tido sorte de usá-lo no iPhone.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top