Domanda

Abbiamo alcune voci audio grezze che dobbiamo distribuire su Internet. Abbiamo bisogno di qualità decente, ma non deve essere di qualità musicale. La nostra principale preoccupazione è l'usabilità da parte del consumatore (ovvero cosa e dove può giocarlo) e le dimensioni del download. La mia esperienza ha dimostrato che gli mp3 non producono i migliori numeri di compressione per l'audio vocale, ma sono in perdita per quali sono le migliori alternative. Alla fine vorremmo automatizzare il processo di conversione per consentire al consumatore di scegliere il livello di qualità rispetto alle dimensioni che desidera.

È stato utile?

Soluzione

Inizia qui.

Come giustamente fai notare, la compressione vocale è diversa dalla compressione audio generale. Troverai molti codec dedicati alle applicazioni di telefonia, che vanno da PCM e ADPCM a codifiche successive basate su pacchetti come CELP utilizzate su reti cellulari GSM.

Tuttavia, la codifica vocale VOIP è leggermente diversa da quella a causa del supporto utilizzato. puoi trovare una buona libreria gratuita (senza restrizioni e open source (BSD)) per la codifica / decodifica vocale nella Speex libreria software .

Ancora una volta, quale scegli dipende dal discorso che stai codificando e dal mezzo su cui viene trasmesso. Inoltre, molte librerie hanno diversi algoritmi che possono usare a seconda delle circostanze, e alcune accenderanno anche al volo in base alle condizioni del suono e della rete.

Per ottenere ulteriore assistenza, restringere la domanda.

-Adam

Altri suggerimenti

Dovresti provare Opus . Riga di comando di compressione di esempio:

ffmpeg -i x.wav -b:a 32k x.opus

I formati di compressione utilizzati più frequentemente utilizzati nell'audio vocale dal vivo (come la telefonia VoIP) sono & # 956; -Law (mu-Law / u-Law è usato negli Stati Uniti) e a-Law (usato in Europa, ecc. .) che, a differenza del PCM non compresso, non supportano una gamma di frequenze così ampia (una gamma più piccola di valori possibili ignora i suoni al di fuori dello spettro necessario e richiede meno spazio per la memorizzazione).

Per motivi di usabilità è più facile usare le compressioni mpeg (mp2 / 3/4) per lo streaming su lettori multimediali standard poiché gli algoritmi sono prontamente disponibili e in genere abbastanza veloci e quasi tutti i lettori multimediali dovrebbero supportarlo, ma per voce potresti prova a specificare un bitrate più basso o esegui la conversione da un file di qualità inferiore in primo luogo (il WAV può essere a diverse frequenze di campionamento e la voce richiede una frequenza di campionamento molto più bassa rispetto alla musica o agli effetti, è fondamentalmente come un frame al secondo sul video ). In alternativa è possibile utilizzare Real Media, WMA o altri formati proprietari, ma ciò limiterebbe l'usabilità poiché gli utenti richiederebbero software di terze parti specifici per la riproduzione, sebbene WMA abbia un eccellente rapporto di compressione e opzioni di compressione specifiche per l'audio vocale.

Supponendo che i tuoi utenti eseguiranno Windows, esiste un codec di compressione vocale WMA che puoi utilizzare con l'SDK di Windows Media Encoder. In caso contrario, puoi usare ACM per usare qualcosa come G723 / G728, ADPCM, mu-law o a-law, alcuni dei quali sono installati di serie su Windows XP e amp; sopra. Questi possono essere impacchettati all'interno di file WAV. Dovrai sperimentare un po 'per trovare il giusto bitrate / qualità (probabilmente non preoccuparti di mu-law o a-law). Con i dati vocali puoi cavartela con frequenze di campionamento piuttosto basse - ad es. 16000 o 8000, poiché non c'è molto al di sopra di 4Khz nella voce parlata dall'uomo.

Penso che AMR è uno dei migliori codec vocali. Lo stavo usando circa un anno fa e ricordo che la qualità era molto buona e i livelli delle dimensioni erano piuttosto piccoli.

Uno svantaggio, soprattutto nel tuo caso, è che, per quanto ne so, non è supportato da un'ampia gamma di lettori multimediali. QuickTime e RealPlayer sono due che conosco per riprodurre file .amr.

Prova speex ... senza limiti di brevetti, buone prestazioni sia dimensionalmente che dal punto di vista della CPU. Ho avuto fortuna ad usarlo su iPhone.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top