أفضل خوارزميات/تنسيقات ضغط الصوت

https://stackoverflow.com/questions/167533

03-07-2019
|

سؤال

لدينا بعض الصوت الخام الذي نحتاج إلى توزيعه عبر الإنترنت.نحن بحاجة إلى جودة لائقة، ولكن ليس من الضروري أن تكون ذات جودة موسيقية.همنا الرئيسي هو سهولة الاستخدام من قبل المستهلك (أي.ماذا وأين يمكنهم تشغيلها) وحجم التنزيل.لقد أظهرت تجربتي أن ملفات mp3 لا تنتج أفضل أرقام الضغط للصوت الصوتي، لكنني لا أعرف ما هي أفضل البدائل.في النهاية، نرغب في أتمتة عملية التحويل للسماح للمستهلك باختيار الجودة مقابل الجودة.مستوى الحجم الذي يرغبون فيه.

المحلول

أبدأ هنا.

كما أشرت بحق، فإن ضغط الصوت يختلف عن ضغط الصوت العام.ستجد العديد من برامج الترميز المخصصة لتطبيقات الهاتف، بدءًا من PCM وADPCM وحتى الترميزات اللاحقة المستندة إلى الحزم مثل CELP المستخدم في شبكات GSM الخلوية.

ومع ذلك، يختلف ترميز الصوت عبر بروتوكول الإنترنت (VOIP) قليلًا عن ذلك نظرًا للوسيط المستخدم.يمكنك العثور على مكتبة جيدة ومجانية (غير مرتبطة ومفتوحة المصدر (BSD)) لتشفير/فك تشفير الكلام في مكتبة برامج سبيكس.

مرة أخرى، يعتمد الاختيار الذي تختاره على الكلام الذي تقوم بتشفيره والوسيط الذي يتم نقله عبره.لاحظ أيضًا أن العديد من المكتبات لديها العديد من الخوارزميات التي يمكنها استخدامها وفقًا للظروف، وبعضها يقوم بالتبديل بسرعة بناءً على ظروف الصوت والشبكة.

للحصول على المزيد من المساعدة، قم بتضييق نطاق سؤالك.

-آدم

نصائح أخرى

ويجب إعطاء التأليف المحاولة. مثال سطر الأوامر الضغط:

ffmpeg -i x.wav -b:a 32k x.opus

والأكثر استخداما صيغ الضغط المستخدمة في الصوت صوت الحية (مثل الاتصال الهاتفي عبر بروتوكول الإنترنت) هي بقانون ميكرون (يستخدم مو-القانون / ش بقانون في الولايات المتحدة) وعلى القانون (التي تستخدم في أوروبا، الخ) التي ، على عكس PCM غير مضغوط، لا تدعم واسعة لنطاق التردد (مجموعة أصغر من القيم الممكنة يتجاهل الأصوات خارج الطيف اللازم ويتطلب مساحة أقل للتخزين).

لأجل سهولة الاستخدام هو أسهل لاستخدام الضغط على تلفزيون (MP2 / 3/4) ليتدفقون على وسائل الاعلام اللاعبين القياسية كما هي خوارزميات متوفرة وعادة سريعة جدا وتقريبا على جميع وسائل الاعلام اللاعبين يعتمد عليه، ولكن لصوت كنت قد محاولة تحديد انخفاض معدل البت أو القيام التحويل من ملف جودة أقل في المقام الأول (WAV يمكن أن تكون على عدة معدلات أخذ العينات وصوت يتطلب معدل أخذ العينات أقل بكثير من الموسيقى أو الآثار، وانها في الاساس مثل ثاني الإطار لكل على الفيديو ). بدلا من ذلك يمكنك استخدام وسائل الاعلام الحقيقي، WMA أو أشكال الملكية الأخرى، ولكن هذا من شأنه أن يحد من قابليتها للاستخدام منذ المستخدمين سيتطلب محددة طرف ثالث البرمجيات للتشغيل، على الرغم من WMA لديه نسبة ضغط ممتازة، فضلا عن خيارات ضغط محددة للتعبير عن الصوت.

بافتراض أن المستخدمين لديك سيعملون بنظام التشغيل Windows، يوجد برنامج ترميز ضغط الكلام WMA الذي يمكنك استخدامه مع Windows Media Encoder SDK.إذا فشل ذلك، يمكنك استخدام ACM لاستخدام شيء مثل G723/G728 أو ADPCM أو mu-law أو a-law، والتي يتم تثبيت بعضها بشكل قياسي على نظام التشغيل Windows XP والإصدارات الأحدث.يمكن تجميعها داخل ملفات WAV.ستحتاج إلى التجربة قليلاً للعثور على معدل البت/الجودة المناسبين (ربما لا تهتم بقانون mu أو a-law).باستخدام البيانات الصوتية، يمكنك التخلص من معدلات العينات المنخفضة جدًا - على سبيل المثال.16000 أو 8000، إذ لا يوجد ما يزيد كثيرًا عن 4 كيلو هرتز في الصوت البشري المنطوق.

AMR هو واحد من أفضل برامج الترميز الكلام. كنت استخدامها منذ حوالي عام وأتذكر أن نوعية جيدة جدا وكانت مستويات حجم صغير نوعا ما.

وعيب واحد، وخاصة في حالتك هي أنه، بقدر ما أعرف، غير معتمد من قبل مجموعة واسعة من وسائل الاعلام اللاعبين. كويك تايم وريل هما والتي أعلم لتشغيل ملفات .amr.

speex ... تعيقها براءات الاختراع، والأداء الجيد سواء sizewise وحدة المعالجة المركزية الحكيمة. لقد كان لديها حسن الحظ استخدامه على اي فون.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow