음악 지문은 어떻게 작동합니까 (Shazam 및 Lala.com과 같은 사이트)?

https://stackoverflow.com/questions/2046771

20-09-2019
|

문제

My Large (120GB) 음악 컬렉션에는 많은 중복 노래가 포함되어 있으며, 중복을 감지하기 위해 지문 트랙을 시도해 보았습니다. 그리고 저는 CS 전공이기 때문에 거기에서 무엇을하는 것에 대해 매우 호기심이 많습니까? 내가하는 일은 Shazam 또는 Lala.com과 같은 정확도를 가진 것은 거의 없습니다. 그들은 "해시"를 어떻게 트랙합니까? 모든 파일 (26,000 파일)에서 표준 MD5 해시를 실행했으며 다른 트랙에서 수백 개의 동일한 해시를 발견하므로 작동하지 않습니다.

Shazam과 달리 전체 파일로 작업하기 때문에 Lala.com에 더 관심이 있지만 비슷한 기술을 모두 사용한다고 가정합니다. 누구든지 음악에 대한 고유 식별자를 생성하는 방법을 설명 할 수 있습니까?

해결책

오디오 지문에 관한 주요 논문은 2002-03 년 Haitsma와 Kalker의 작품입니다. 오디오의 각 프레임마다 전처리 (시간 프레임 및 주파수 대역의 차이)와 프레임 스펙트럼의 이항 버전을 저장합니다.

이 절차는 견고성을 추가합니다. 전체 신호가 제 시간에 이동하면 여전히 작동합니다 (적어도 성능 저하에서 하한을 도출 할 수 있습니다). 환경 소음에 매우 강력합니다. 처음부터 낮은 수준의 음악 유사성에 관한 많은 논문이 있었으므로 단일 답변이 없습니다.

절대적으로 동일한 파일이 있습니까? 즉, 신호는 시간이 정렬되고 비트 깊이가 동일하며 샘플링 속도가 동일합니까? 그런 다음 MD5와 같은 해시가 작동해야한다고 생각합니다. 그러나 해당 매개 변수 중 하나라도 변경되면 해시도 변경됩니다. 그러한 사건에서, 앞에서 언급 한 것과 같은 절차가 더 잘 작동합니다.

온라인에서 무료로 제공되는 ISMIR 절차를 살펴보십시오. 재미있는 것들. http://www.ismir.net/

다른 팁

음향 지문을위한 많은 알고리즘이 있습니다. 가장 인기있는 것 중 일부는 다음과 같습니다.

실제로 libfooid는 opensource이므로 Google 코드에서 코드를 확인할 수 있습니다 !!

그를보세요 음향 지문 Wikipedia의 페이지. 일부 논문에 대한 참조와 구현 링크 (오픈 소스 포함 FDMF).

더 많은 연구를 마친 후 (이것은 전혀 결정적이지는 않지만!), 나는 musicbrainz.org의 Wiki를 가로 질러 그들이 사용하는 접근법을 자세히 설명합니다.

http://musicbrainz.org/doc/audio_fingerprint

http://musicbrainz.org/doc/how_puids_work

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow