프로그래밍 방식으로 소리 '듣기'(신호 처리?)

https://stackoverflow.com/questions/1628071

06-07-2019
|

문제

나는 익숙하다 컴퓨터 시각 인식 (글쎄요, 알아두세요) 그 중 하나의 응용 프로그램은 다음과 같은 이미지 인식이 될 수 있습니다. 광학 문자 인식, 나는 믿는다.하지만 제가 더 관심을 갖고 있는 것은 바로 '컴퓨터 듣기'인데, 방금 배운 내용이 생각나네요. 디지털 신호 처리.

신호 처리에 관해 제가 가장 관심을 갖는 것은 음악에서의 잠재적인 응용입니다.얼마전에 지원서 미리보기를 본 기억이 나네요(죄송합니다. 이름을 잊어버렸습니다.) 누군가가 기타를 연주하는 녹음을 듣고 실제 연주된 음표/코드를 타임라인에 걸쳐 자동으로 그래프로 표시할 수 있는 기능입니다.프로그램을 사용하여 사용자는 이러한 항목을 이동하고 편집할 수도 있었습니다.자, 분명히 이것은 훨씬 더 복잡합니다. 하지만 동일한 내용이 포함됩니까?신호 처리?또한 음악 시각화 장치와 지능형 조명 시스템에 적용할 수 있는 방법에도 관심이 있습니다.

제가 이해하는 바는 MP3와 같은 압축된 오디오 형식에서 이 처리를 수행하면 별도의 트랙이 포함된 MIDI와 동일한 결과가 나오지 않는다는 것입니다(아마 제가 잘못 이해했을 수도 있습니다).PCM과 같은 비압축 형식이 MP3보다 성능이 더 좋습니까?저는 음향 처리에 대해 아무것도 모릅니다. 지금까지 읽은 내용에서 추론한 것뿐입니다.

나는 이미 보았다 이 질문 내 질문을 많이 다루는 훌륭한 답변과 링크가 있습니다.그러나 내가 찾은 대부분의 링크는 이론적인 것입니다. 이 링크는 모두 흥미롭고 해당 주제에 대한 관심을 고려할 때 확실히 읽을 가치가 있지만 이를 용이하게 할 수 있는 기존 라이브러리가 있는지 알고 싶었습니다. 또는 예제 코드와 함께 컴퓨터 과학/프로그래밍에 관한 이 주제와 관련된 기사.오픈 소스 사운드/음악 시각화 도구 또는 기타 오픈 소스 사운드 처리 코드도 훌륭할 것입니다.

제가 이해가 되지 않았다면 죄송합니다.내가 말했듯이, 나는 내가 무슨 말을 하는지 모른다.

해결책

신호 처리에 가장 관심이있는 것은 음악의 잠재적 응용 프로그램입니다. 얼마 전에 응용 프로그램 미리보기를 보았습니다 (죄송합니다, 이름을 잊었습니다)

아마도 쿠바 제 ?

기타를 연주하는 사람의 녹음을 듣고 연주 된 실제 음표/코드로 타임 라인을 자동으로 그래프로 표시 할 수 있습니다.

깊이 단순화되면, 메모를 재생하면 주어진 주파수로주기적인 파도를 생성합니다. 파동을 스펙트럼으로 변환하는 수학적 트릭 (푸리에 변환 DFT)이 있으며, 이는 시간에 대한 강도를 제시하는 대신 파도의 주파수에 대해 보여줍니다. 예를 들어, 튜닝 포크의 완벽한 메모는 440Hz에서 진동 파를 생성합니다. 시간 영역에서 이것은 정현파 파로 나타납니다. 주파수 영역에서는 440Hz를 중심으로 한 단일 좁은 스파이크로 나타납니다.

이제 기타를 연주하면 완벽한 정현파 파도를 생산하지 않습니다. A를 치면 진동 현악기의 물리학으로 인해 기본 주파수, 440Hz (예 : 880, 예 : 880, 예 : 880)가 생성됩니다. 기타 등의 모양. 음색). 다른 악기 (피아노)는 기본과 고조파를 혼합하여 다른 음색을 생성합니다.

DSP 프로그램이하는 일은 입력 신호에서 DFT를 수행하는 것입니다. 추가 요령으로 그들은 기본과 고조파를 발견하고 그들이 발견 한 것에 따라 그들이 당신이 한 메모를 추론합니다. 라이브를 재생하고 특별한 트릭을 트리거하는 동안 메모를 찾을 수 있기 때문에 빠르게 발생해야합니다. 예를 들어, 기타에 대한 메모를 찍을 수 있습니다. DSP는 A라는 것을 이해하고 피아노에서 A로 대체하므로 스피커에서 피아노의 소리를 얻습니다.

이 프로그램을 사용하여 사용자는 이것들을 주위로 옮기고 편집 할 수있었습니다. 이제 분명히 이것은 훨씬 더 복잡하지만 같은 것을 포함합니까? 신호 처리? 또한 음악 시각화 및 지능형 조명 시스템의 가능한 응용 프로그램에 관심이 있습니다.

예. 주파수 영역에 있으면 상황이 매우 쉬워집니다. 예를 들어, 음성 주파수에 따라 특정 조명을 비추고베이스 드럼으로 다른 조명을 조명 할 수 있습니다.

내 이해는 MP3와 같은 압축 오디오 형식 으로이 처리를 수행하면 별도의 트랙이 포함 된 MIDI와 동일한 결과를 얻을 수 없다는 것입니다.

그들은 두 가지 다른 것입니다. MP3는 음파의 압축 형식입니다. 기본적으로 스피커의 조종사를 가져 와서 압축합니다. 아이디어는 동일합니다. DFT, 들리지 않을 것들을 제거합니다 (예 : 높은 강도 소리가 들린 직후에 오는 높은 피치는 들릴 가능성이 적기 때문에 제거됩니다).

반면에 미디는 이벤트의 두루마리입니다. 파일에는 음악이 포함되어 있지 않습니다. 대신 MIDI 플레이어가 특정 기기로 특정 시간에 특정 음표를 수행 할 수있는 방향이 포함되어 있습니다. "인스트루먼트 뱅크"의 품질은 (무엇보다도) 좋은 미디 플레이어 (아이 장난감처럼 들리는) 좋은 미디 플레이어 (특히 피아노와 바이올린에 대해서는 눈에 띄는 악기의 경우, 여전히 어린이 장난감처럼 들리는 나쁜 미디 플레이어를 구별하는 것입니다. 현실적인 것을 들어야합니다).

MIDI에서 MP3로 이동하면 MIDI 플레이어를 통해 공연합니다. 다른 방법으로하는 것은 완전히 다른 이야기이며 훨씬 더 복잡하며, 여기에 DSP가 시작되는 곳이 있습니다.

피스크 탱크를 끓이는 것과 같습니다. 당신은 생선 수프를 얻습니다. 그러나 생선 수프에서 어항으로 돌아가려면 훨씬 더 어렵습니다.

PCM과 같은 압축되지 않은 형식이 MP3보다 낫습니까?

PCM은 아날로그 신호를 디지털 신호로 변환하는 기술입니다. 따라서 귀하의 질문에는 근본적인 오해가 있습니다. PCM 형식이 존재하지 않는다 (원시 형식은 긴밀한 호출이며 기본적으로 조잡한 데이터 외에는 아무것도 아닙니다). 압축되지 않은 WAV (PCM 데이터가 포함 된)가 MP3보다 낫다면, 그렇습니다. 그러나 질문은 때때로 인간의 귀에 실제로 얼마나 더 나은 것이 중요하고, 해당 데이터에 대해 얼마나 많은 후 처리 해야하는지입니다.

이를 용이하게 할 수있는 기존 라이브러리가 있는지 또는 예제 코드와 함께 컴퓨터 과학/프로그래밍을위한이 주제와 관련된 기사가 있는지 알고 있습니다. 오픈 소스 사운드/음악 시각화 또는 기타 오픈 소스 사운드 처리 코드조차도 좋습니다.

파이썬을 좋아한다면 이 페이지를 살펴보십시오

내가 말이되지 않으면 죄송합니다. 내가 말했듯이, 나는 내가 무슨 말을하는지 모른다.

나도 그렇지 않지만 나는 그것으로 조금 놀랐다.

다른 팁

내 이해는 MP3와 같은 압축 오디오 형식 으로이 처리를 수행하면 별도의 트랙이 포함 된 MIDI와 동일한 결과를 얻을 수 없다는 것입니다.

Midi는 기본적으로 악기 정보 및 악기를 저장합니다. 또한 기타 효과 (볼륨, 피치 벤드, 비브라토, 공격 속도 등)

실제로 디지털 신호 처리가 아닙니다.

PCM과 같은 압축되지 않은 형식이 MP3보다 낫습니까?

어쩌면 다소; 응용 프로그램에 따라 다릅니다. MP3는 주파수의 정밀도를 줄입니다 인간 민감하지 않습니다. 시각화를하고 싶다면 MP3는 괜찮을 것입니다.

그러나 예를 들어 녹음에서 어떤 종류의 악기가 재생되는지 결정하려면 인간이 민감하지 않은 주파수에 숨겨진 유용한 정보가있을 수 있습니다.

제 생각에는 디지털 신호 처리에 대한 과학자 및 엔지니어 안내서 a 엄청난 프로그래머에 대한 참조. 8 장에서는 이산 푸리에 변환 (MP3 처리에 사용 된 많은 다른 장소와 파동의 구성 요소 주파수를 분리하기위한 많은 다른 장소)을 설명합니다.

마우스로 파도를 그릴 수있는 그래픽 프로그램을 만들고 DFT를 적용한 다음 포함 할 주파수 수를 선택할 수있었습니다. 훌륭한 운동이었습니다.

나는 얼마 전에 기타를 연주하는 누군가의 녹음을들을 수있는 응용 프로그램 미리보기 (죄송합니다, 이름을 잊어 버렸습니다)를 보았고, 재생 된 실제 음표/코드와 함께 타임 라인에 자동으로 그래프를 그래프로 표시했습니다. .

Melodyne을 생각하고있을 수도 있습니다. http://www.celemony.com/cms/

최신 버전의 Cubase의 Vari 오디오는 매우 비슷합니다. :)

나는 당신이 찾고 있는 것이 무엇인지, 무엇을 하려고 하는지 정확하게 정의해야 한다고 생각합니다.

대해 배우고 싶다면 DSP, 미디 또는 PCM 그러면 Wikipedia와 참고자료에 대한 많은 정보가 있습니다.

오디오 조작을 위한 수많은 응용 프로그램이 있습니다.귀하의 질문에 설명하신 내용은 모든 디지털 녹음 스튜디오(요즘에는 거의 모든 스튜디오를 차지함)에서 매일 일어나는 일입니다.

예를 들어 기타 사운드에 대해 일부 DSP를 수행하려는 경우 이상적으로는 기타 자체를 녹음하는 것이 좋습니다(드럼이나 보컬이 포함된 믹스다운 트랙보다는).상당한 수준의 '잡음'이 포함된 신호를 분석하는 것보다 추가 잡음 없이 이산 신호를 분석하는 것이 더 나은 결과를 얻을 수 있다는 것은 매우 분명합니다.그렇습니다. 'MP3'보다는 멀티트랙 녹음이 더 나을 것입니다.

일반적인 MP3에는 왼쪽 및 오른쪽 채널(트랙)이 포함되어 있으므로 기술적으로는 멀티트랙입니다.음악이 (적어도 전문적으로) 녹음되면 서로 다른 신호가 서로 다른 트랙에 녹음되므로 나중에 개별적으로 편집하고 처리할 수 있습니다.

그러면 소리로 무엇을 하시겠습니까?

다른 답변에서 지적했듯이 이는 MIDI와 전혀 관련이 없습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow