Beste Sprachkomprimierungsalgorithmen / Formate

https://stackoverflow.com/questions/167533

03-07-2019
|

Frage

Wir haben einige rohe Stimme Audio, die wir brauchen, über das Internet zu verteilen. Wir brauchen anständige Qualität, aber es muss nicht der musikalischen Qualität. Unser Hauptanliegen ist die Benutzerfreundlichkeit durch den Verbraucher (das heißt, was und wo sie können es spielen) und die Größe des Downloads. Meine Erfahrung hat gezeigt, dass mp3s nicht die beste Kompression Zahlen für Voice-Audio erzeugen, aber ich bin an einem Verlust für das, was die besten Alternativen. Schließlich möchten wir den Umwandlungsprozess automatisieren, die Verbraucher zu ermöglichen, die Qualität vs. Größe Ebene zu wählen, dass sie möchten.

Lösung

Hier starten.

Wie Sie zu Recht darauf hin, Sprachkomprimierung unterscheidet sich von allgemeinen Audiokompression. Sie werden an Telefonie-Anwendungen gewidmet viele Codecs, angefangen von PCM und ADPCM durch spätere paketbasierte Verschlüsselungen wie CELP auf GSM Mobilfunknetze.

Dennoch VOIP Sprachcodierung ist etwas anders aus, dass aufgrund des Mediums verwendet. Sie können eine gute, freie (unbelastet und Open Source (BSD)) Bibliothek für die Sprachcodierung / Decodierung in der Speex finden Software-Bibliothek .

Auch hier, die Sie wählen, hängt von der Sprache Sie codieren, und das Medium es über übertragen hat wird. Beachten Sie auch, dass viele Bibliotheken mehrere Algorithmen haben, können sie von den Umständen verwenden abhängig, und einige werden sogar schalten on the fly basierend auf Bedingungen des Klanges und Netzwerk.

Um unten mehr Hilfe, grenzen Sie Ihre Frage zu bekommen.

-Adam

Andere Tipps

Sie sollten geben Opus versuchen. Beispiel Druckbefehlszeile:

ffmpeg -i x.wav -b:a 32k x.opus

Die am häufigsten verwendeten Kompressionsformate in Live-Stimme Audio verwendet (wie VoIP-Telefonie) sind μ-Law (mu-Law / u-Gesetz in den USA verwendet wird) und a-Law (in Europa, etc.), das nicht so breit ist von einem Frequenzbereich (ein kleinerer Bereich möglicher Werte ignoriert Töne außerhalb des notwendigen Spektrums und erfordert weniger Raum zu speichern), im Gegensatz zu unkomprimierter PCM, unterstützen.

Für die Benutzerfreundlichkeit zuliebe ist es am einfachsten, mpeg Kompressionen (MP2 / 3/4) für das Streaming auf Standard-Media-Player wie die Algorithmen leicht verfügbar ist und in der Regel recht schnell und fast alle Medien Spieler sollten sie unterstützen zu verwenden, aber für Stimme könnte man versuchen, eine niedrigere Bitrate oder tun, um Ihre Umwandlung von einer niedrigeren Qualität Datei an erster Stelle angeben (WAV an mehreren Abtastraten sein kann und Stimme erfordert eine viel niedrigeren Abtastrate als Musik oder Effekte, es ist im Grunde wie Frame pro Sekunde auf Video ). Alternativ können Sie Real Media, WMA oder andere proprietäre Formate verwenden, aber dies würde die Benutzerfreundlichkeit begrenzen, da die Benutzer bestimmte Software von Drittanbietern für die Wiedergabe erfordern würden, obwohl WMA ein ausgezeichnetes Kompressionsverhältnis sowie Komprimierungsoptionen speziell für Sprachaudio hat.

Unter der Annahme, Ihre Benutzer Windows ausgeführt werden, gibt es eine WMA-Sprachkompression Codec, den Sie mit dem Windows Media Encoder SDK verwenden können. Gelingt das nicht, Sie ACM verwenden können, so etwas wie G723 / G728, ADPCM, mu-Gesetz oder Rechtsprechung zu verwenden, von denen einige installiert werden standardmäßig unter Windows XP und höher. Diese können innerhalb von WAV-Dateien verpackt werden. Sie werden ein wenig zu experimentieren, um die richtige Bitrate / Qualität zu finden (wahrscheinlich nicht die Mühe mit mu-law oder A-law). Mit Sprachdaten können Sie mit sehr niedrigen Abtastraten weg - z.B. 16000 oder 8000, da es nicht viel über 4 kHz im menschlichen Sprechstimme ist.

Ich denke, AMR einer der besten Sprachcodecs ist. Ich war mit ihm vor etwa einem Jahr und ich erinnere mich, dass die Qualität war sehr gut und Größe Ebenen waren eher klein.

Ein Nachteil, vor allem in Ihrem Fall ist, dass, soweit ich weiß, ist es nicht durch breite Palette von Media-Playern unterstützt wird. Quicktime und Realplayer sind zwei, die ich kenne Dateien spielen .amr.

Versuchen Sie speex ... unbelastet von Patenten, gute Leistung sowohl sizewise und CPU-weise. Ich habe mit viel Glück auf iPhone.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow