كيف يعمل بصمات الأصابع الموسيقية (لمواقع مثل Shazam و Lala.com)؟

StackOverflow https://stackoverflow.com/questions/2046771

سؤال

يحتوي مجموعة الموسيقى الكبيرة (120 جيجابايت) على العديد من الأغاني المكررة، ولقد أحاول تعقب بصمات الأصابع على أمل الكشف عن التكرارات. وبما أنني رائد CS أنا فضولي للغاية لما يتم ذلك هناك؟ لا يوجد شيء أقيم فيه ما يقرب من دقة شيء مثل Shazam أو Lala.com. كيف هم "التجزئة"؟ لقد قمت بتشغيل Hash MD5 القياسي على جميع ملفاتي (26000 ملف) ووجدت مئات التجريم المتساوية على مسارات مختلفة، بحيث لا يعمل.

أنا أكثر اهتماما ب Lalla.com لأنهم يعملون مع الملفات الكاملة، على عكس شزام، لكنني أفترض كلاهما استخدام تقنية مماثلة. هل يمكن لأي شخص أن يفسر كيفية توليد معرفات فريدة من نوعها للموسيقى؟

هل كانت مفيدة؟

المحلول

الورقة الفيدرودية على بصمات الصوت هي العمل من قبل Haitsma and Kalker في 2002-03. لكل إطار من الصوت، فإن إعادة التسعينات (الاختلافات عبر الأطر الزمنية ونطاقات التردد) ثم تخزن نسخة ثنائية من طيف الإطار.

هذا الإجراء يضيف متانة. إذا تم تحويل الإشارة بأكملها في الوقت المناسب، فإنها لا تزال تعمل (على الأقل، يمكن للمرء أن يستمد أدنى حد من تدهور الأداء). انها قوية جدا للضوضاء البيئية. منذ إنشائها، كانت هناك العديد من الأوراق على تشابه موسيقى منخفض المستوى، لذلك لا توجد إجابة واحدة.

هل لديك ملفات متطابقة تماما، أي الإشارات محاذاة الوقت، عمق البت هو نفسه، معدل أخذ العينات هو نفسه؟ ثم أعتقد أن التجزئة مثل MD5 يجب أن تعمل. ولكن إذا تم تغيير أي من هذه المعلمات، فستكون الخلاصة. في مثل هذا الحدث، فإن إجراء مثل واحد المذكور سابقا سيعمل بشكل أفضل.

ألق نظرة على إجراءات إيزمل متوفرة على الإنترنت مجانا. متعة الاشياء. http://www.ismir.net/

نصائح أخرى

هناك الكثير من الخوارزميات للحصول على بصمات الصوت الصوتية. بعض أكثر الأشياء الأكثر شعبية هي:

  1. AMG Lasso.
  2. audioid.
  3. libfoid.

في الواقع libfoid هو opensource، حتى تتمكن من التحقق من رمزها في Google-Code !!

ألق نظرة عليه بصمة الصوتية صفحة على ويكيبيديا. لديها مراجع لبعض الأوراق بالإضافة إلى روابط إلى التطبيقات (بما في ذلك المصدر المفتوح FDMF.).

بعد بعض الأبحاث الأخرى (على الرغم من أن هذا غير قاطع على الإطلاق!)، فقد حدثت عبر Wiki في MusicBrainz.org التي تفاصيل بعض الأساليب التي يستخدمونها:

http://musicbrainz.org/doc/audio_fingerprint.

http://musicbrainz.org/doc/how_puids_work.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top