برمجيا "الاستماع" إلى الصوت (معالجة الإشارات؟)

https://stackoverflow.com/questions/1628071

06-07-2019
|

سؤال

أنا على دراية رؤية الكمبيوتر (حسنا ، اعرف ذلك) ، أي تطبيق واحد يمكن أن يكون التعرف على الصور ، مثل التعرف الضوئي على الحروف, ، أعتقد. ومع ذلك ، فإن شيئًا مهتمًا به أكثر هو "الاستماع إلى الكمبيوتر" ، والذي تعلمته للتو يعتبر للتو معالجة الإشاراة الرقمية.

الشيء الذي يثير اهتمامي أكثر حول معالجة الإشارات هو التطبيق المحتمل في الموسيقى. أتذكر منذ فترة رأيت معاينة للتطبيق (آسف ، نسيت الاسم) الذي يمكن أن يستمع إلى تسجيل لشخص يعزف على الجيتار ، ويُرسم تلقائيًا عبر خط زمني مع الملاحظات/الحبال الفعلية التي تم لعبها. باستخدام البرنامج ، تمكن المستخدم من تحريكها وحتى تحريرها. الآن ، من الواضح أن هذا أكثر تعقيدًا ، لكن هل ينطوي على نفس الشيء؟ معالجة الإشارات؟ أنا مهتم أيضًا بالتطبيقات المحتملة في مرئيات الموسيقى وأنظمة الإضاءة الذكية.

أفهم أن القيام بهذه المعالجة على تنسيق صوتي مضغوط مثل MP3 لن تسفر عن نتائج MIDI التي تحتوي على مسارات منفصلة (ربما أسيء فهمها). هل سيكون التنسيق غير المضغوط مثل PCM أفضل من MP3؟ لا أعرف أي شيء عن معالجة الصوت ، هذا فقط ما أستنتجه مما قرأته حتى الآن.

لقد رأيت بالفعل هذا السؤال التي لديها إجابات وروابط رائعة تغطي الكثير من أسئلتي. ومع ذلك ، فإن معظم الروابط التي وجدتها نظرية ، وأنا متأكد من أنها مثيرة للاهتمام ، وهي بالتأكيد تستحق القراءة بالنظر إلى اهتمامي بالموضوع ، لكنني أردت أن أعرف ما إذا كانت هناك أي مكتبات موجودة يمكنها تسهيل ذلك ، أو المقالات المتعلقة بهذا الموضوع الموجهة نحو علوم الكمبيوتر/البرمجة ، مع ربما رمز مثال. حتى المصدر المفتوح المصدر/المرئيات الموسيقية أو أي رمز معالجة الصوت مفتوح المصدر آخر سيكون رائعا.

آسف إذا لم يكن لدي أي معنى. كما قلت ، لا أعرف ما أتحدث عنه.

المحلول

الشيء الذي يثير اهتمامي أكثر حول معالجة الإشارات هو التطبيق المحتمل في الموسيقى. أتذكر منذ فترة وجيزة رأيت معاينة للتطبيق (آسف ، نسيت الاسم)

يمكن Cubase ?

الذي يمكن أن يستمع إلى تسجيل لشخص يعزف على الجيتار ، ويُرسم تلقائيًا عبر خط زمني مع الملاحظات/الحبال الفعلية التي تم لعبها

مبسطة بعمق ، عندما تلعب ملاحظة ، يمكنك إنتاج موجة دورية ذات تردد معين. هناك خدعة رياضية (تحويل فورييه DFT) التي تحول الموجة إلى الطيف ، والتي بدلاً من تقديم الكثافة مع الزمن ، فإنها تُظهرها ضد تواتر الموجة. على سبيل المثال ، فإن ملاحظة مثالية من شوكة ضبط من شأنها أن تنتج موجة متذبذبة عند 440 هرتز. في المجال الزمني ، سيظهر هذا كموجة الجيوب الأنفية. في مجال التردد ، سيظهر كارتفاع ضيقة مفردة تركز على 440 هرتز.

الآن ، عندما تعزف على الغيتار ، فإنك لا تنتج موجات جيب مثالية. سيؤدي ضرب A A إلى إنتاج التردد الأساسي ، 440 هرتز ، ولكن أيضًا الكثير من الترددات الإضافية (على سبيل المثال 880 ، على أوكتاف أعلى ، ولكن أيضًا الكثير من الفراغ العليا والسفلى) ، بسبب فيزياء السلسلة الاهتزازية ، المادة وشكل الجيتار وما إلى ذلك .. تسمى هذه الترددات الإضافية التوافقيات ، وهي تختلط مع الأساس لإنتاج "صوت الجيتار" (ما يسمى في المصطلحات الموسيقية طابع الصوت). سيكون للأداة المختلفة (على سبيل المثال البيانو) خلط مختلف من التوافقيات مع الأساسي ، مما ينتج جرسًا مختلفًا.

ما تفعله برامج DSP هو أداء DFT على إشارة الدخول. مع الحيل الإضافية ، يجدون الأساسيات والتوافقيات ، ووفقًا لما يجدون أنهم يستنتجون الملاحظة التي لعبتها. يجب أن يحدث هذا سريعًا ، لأنه يمكنك العثور على الملاحظة أثناء لعب الحيل المباشرة وتشغيل الحيل الخاصة. على سبيل المثال ، يمكنك الوصول إلى ملاحظة على الجيتار ، وتفهم DSP أنها A A واستبدالها بـ A من البيانو ، لذلك من مكبرات الصوت التي تحصل عليها من صوت البيانو.

باستخدام البرنامج ، تمكن المستخدم من تحريكها وحتى تحريرها. الآن ، من الواضح أن هذا أكثر تعقيدًا ، لكن هل ينطوي على نفس الشيء؟ معالجة الإشارات؟ أنا مهتم أيضًا بالتطبيقات المحتملة في مرئيات الموسيقى وأنظمة الإضاءة الذكية.

نعم. بمجرد أن تكون في مجال التردد ، تصبح الأمور سهلة للغاية. على سبيل المثال ، يمكنك تضييق ضوء معين وفقًا لترددات الصوت ، وضوء آخر مع أسطوانة الجهير.

أفهم أن القيام بهذه المعالجة على تنسيق صوتي مضغوط مثل MP3 لن تسفر عن نتائج MIDI التي تحتوي على مسارات منفصلة (ربما أسيء فهمها).

انهما شيئان مختلفان. MP3 هو تنسيق مضغوط من موجة صوتية. في الأساس ، يستغرق الطيارين مكبرات الصوت ، ويضغطها. الفكرة هي نفسها: DFT ، ثم إزالة الأشياء التي من غير المرجح أن تُسمع (على سبيل المثال ، الملعب العالي الذي يأتي مباشرة بعد أن يتم سماع صوت عالي الكثافة ، بحيث يتم إزالته).

من ناحية أخرى ، فإن MIDI عبارة عن مجموعة من الأحداث (كما تعلمون ، مثل تلك البيانو في أقصى الغرب ، مع تمرير الورق المتداول). لا يحتوي الملف على أي موسيقى. يحتوي بدلاً من ذلك على اتجاهات لمشغل MIDI لإجراء ملاحظات محددة في أوقات محددة مع أدوات محددة. جودة "بنك الأدوات" هي (من بين أمور أخرى) ما يميز لاعب MIDI السيئ (الذي يبدو وكأنه لعبة طفل) من لاعب MIDI جيد (والذي يبدو واقعيًا ، ولا سيما للبيانو والكمان ، لأدوات الرياح التي ما زلت يجب أن تسمع واحدة واقعية).

يتطلب الأمر الانتقال من MIDI إلى MP3 ، فأنت فقط تؤدي من خلال لاعب MIDI. إن القيام بعكس ذلك هو قصة مختلفة تمامًا ، وأكثر تعقيدًا بكثير ، وهنا هنا يلعب DSP ، كما قلت.

إنه مثل غليان خزان fisk. تحصل على حساء السمك. ولكن للانتقال من حساء السمك إلى خزان السمك ، يكون الأمر أكثر صعوبة.

هل سيكون التنسيق غير المضغوط مثل PCM أفضل من MP3؟

PCM هي تقنية لتحويل إشارة تمثيلية إلى إشارة رقمية. لذا فإن سؤالك له سوء فهم أساسي ، أنه لا يوجد تنسيق PCM (التنسيق الخام هو مكالمة وثيقة ، لا شيء سوى البيانات الخام). إذا سألت ما إذا كانت WAV غير مضغوطة (التي تحتوي على بيانات PCM) أفضل من MP3 ، ثم نعم ، ولكن السؤال في بعض الأحيان هو مدى أهمية هذا بشكل أفضل للأذن البشرية ، ومقدار ما بعد المعالجة التي يجب عليك القيام بها على هذه البيانات.

تعرف على ما إذا كانت هناك أي مكتبات موجودة يمكنها تسهيل ذلك ، أو المقالات المتعلقة بهذا الموضوع الموجهة نحو علوم/برمجة الكمبيوتر ، مع ربما رمز مثال. حتى المصدر المفتوح المصدر/المرئيات الموسيقية أو أي رمز معالجة الصوت مفتوح المصدر آخر سيكون رائعا.

إذا كنت تحب بيثون ، ألق نظرة على هذه الصفحة

آسف إذا لم يكن لدي أي معنى. كما قلت ، لا أعرف ما أتحدث عنه.

لا أنا ، لكنني ألعبت قليلاً معها.

نصائح أخرى

أفهم أن القيام بهذه المعالجة على تنسيق صوتي مضغوط مثل MP3 لن تسفر عن نتائج MIDI التي تحتوي على مسارات منفصلة (ربما أسيء فهمها).

MIDI يخزن بشكل أساسي معلومات الأدوات والملاحظات الموسيقية. أيضا تأثيرات أخرى (الحجم ، منحنى الملعب ، الاهتزاز ، معدل الهجوم ، إلخ)

ليس حقا معالجة الإشارات الرقمية.

هل سيكون التنسيق غير المضغوط مثل PCM أفضل من MP3؟

ربما إلى حد ما ذلك يعتمد على التطبيق. MP3 يقلل من دقة الترددات التي البشر ليست حساسة ل. إذا كنت ترغب في القيام بالتصورات ، فربما يكون MP3 على ما يرام.

ولكن إذا كنت تريد ، على سبيل المثال ، تحديد نوع الأدوات التي يتم تشغيلها في التسجيل ، فقد تكون هناك معلومات مفيدة مخفية في الترددات التي لا يكون البشر حساسين لها.

أظن دليل العالم والمهندس لمعالجة الإشارات الرقمية هو رائعة مرجع للمبرمجين. يشرح الفصل 8 تحويل فورييه المنفصل (المستخدم في معالجة MP3 والكثير من الأماكن الأخرى لفصل ترددات المكون للموجة).

لقد استخدمته للمساعدة في صنع برنامج رسومي يتيح لك رسم موجة مع الماوس ، ثم طبقت DFT ، والسماح لك بتحديد عدد الترددات التي يجب تضمينها. لقد كان تمرينًا رائعًا.

أتذكر منذ فترة وجيزة رأيت معاينة للتطبيق (آسف ، نسيت الاسم) الذي يمكن أن يستمع إلى تسجيل لشخص يعزف على الجيتار ، وترسمه تلقائيًا عبر خط زمني مع الملاحظات/الحبال الفعلية التي تم لعبها .

قد تفكر أيضًا في Melodyne: http://www.celemony.com/cms/

على الرغم من أن Vari Audio في إصدار أحدث من Cubase متشابه جدًا. قون

أعتقد أنك بحاجة إلى تحديد ما تبحث عنه بالضبط وما تحاول القيام به.

إذا كنت تريد التعرف على DSP, ميدي أو PCM ثم هناك الكثير من المعلومات حول ويكيبيديا والمراجع.

هناك العديد من عدد لا يحصى من التطبيقات للتلاعب بالصوت المتاحة. ما وصفته في سؤالك هو ما يحدث في كل استوديو للتسجيل الرقمي (والذي تمثل في هذه الأيام جميع الاستوديوهات تقريبًا) كل يوم.

إذا كنت تعتزم أداء بعض DSP ضد صوت الجيتار ، فستكون لديك تسجيلًا مثاليًا للغيتار نفسه (بدلاً من مسار مختلط يحتوي على الطبول أو الغناء). يجب أن يكون من الواضح أنك ستحصل على نتائج أفضل لتحليل إشارة منفصلة دون ضوضاء إضافية مما ستقوم بتحليل إشارة تحتوي على مستويات كبيرة من "الضوضاء". لذا نعم ، سيكون تسجيل متعدد الأتراك هو الأفضل من "mp3".

يحتوي MP3 النموذجي على القنوات اليمنى واليسرى (المسارات) بحيث يكون من الناحية الفنية متعددة. عندما يتم تسجيل الموسيقى (بشكل احترافي ، على الأقل) ، يتم تسجيل إشارات مختلفة على مسارات مختلفة ، على وجه التحديد بحيث يمكن تحريرها ومعالجتها بتقدير في وقت لاحق.

ماذا ، إذن ، هل تريد أن تفعل بالأصوات؟

كما أوضحت إجابات أخرى ، فإن هذا لا يرتبط بـ MIDI على الإطلاق.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow