プログラムで音を「聞く」（信号処理？）

https://stackoverflow.com/questions/1628071

06-07-2019
|

質問

コンピュータービジョン（それについて知って）、そのうちの1つのアプリケーションは光学文字認識などの画像認識です。私は信じている。ただし、私がもっと興味を持っているのは「コンピューターリスニング」です。これは、先ほど学習したデジタル信号と見なされます処理中。

信号処理について最も興味を持っているのは、音楽への応用の可能性です。少し前に、ギターを弾いている人の録音を聞くことができるアプリケーションのプレビュー（申し訳ありませんが、名前を忘れました）を見ました。演奏された実際のノート/コード。プログラムを使用して、ユーザーはこれらを移動したり、編集することさえできました。さて、これは明らかにもっと複雑ですが、同じことが関係していますか？信号処理？また、音楽ビジュアライザーやインテリジェント照明システムで可能なアプリケーションにも興味があります。

私の理解では、MP3などの圧縮オーディオ形式でこの処理を行うと、個別のトラックを含むMIDIと同じ結果が得られない（誤解された可能性があります）。 PCMなどの非圧縮形式はMP3よりも優れていますか？サウンド処理については何も知りません。これはこれまで読んだことから推測していることです。

すでにこの質問を見ました。それは私の質問の多くをカバーしています。しかし、私が見つけたリンクのほとんどは理論的なものであり、私が興味を持っていることを考えると、すべて興味深いものであり、間違いなく読む価値がありますが、これを容易にする既存のライブラリがあるかどうか知りたいと思いました、または、この例に関連する記事で、コード例が記載されたコンピューターサイエンス/プログラミングを対象としています。オープンソースのサウンド/音楽ビジュアライザー、または他のオープンソースのサウンド処理コードも素晴らしいでしょう。

意味がわからない場合は申し訳ありません。私が言ったように、私は何について話しているのか分かりません。

解決

私が最も興味を持っていること信号処理については音楽の潜在的なアプリケーション。私しばらく前に私はプレビューを見ましたアプリケーションの（申し訳ありませんが、名前）

多分 cubase ？

の録音を聞くことができますギターを弾く人、そして自動的にグラフ化します実際のノート/コードのタイムラインプレイされた

メモを演奏すると、指定した周波数の周期的な波が非常に簡単になります。波をスペクトルに変換する数学的なトリック（フーリエ変換DFT）があり、時間に対して強度を示す代わりに、波の周波数に対して強度を示します。たとえば、音叉からの完璧なA音は、440 Hzの振動波を生成します。時間領域では、これは正弦波として表示されます。周波数ドメインでは、440 Hzを中心とする単一の細いスパイクとして表示されます。

今、ギターを弾くとき、完璧な正弦波は生成されません。 Aを押すと、基本周波数440 Hzが生成されますが、振動弦の物理的性質により、多くの追加周波数（たとえば、オクターブ上で880、その他の高周波数および低周波数）も生成されます。これらの追加の周波数は高調波と呼ばれ、基本波と混合して「ギターの音」を生成します。（音楽の専門用語では timbre と呼ばれます）。別の楽器（ピアノなど）では、倍音と基本波のミキシングが異なり、異なる音色が生成されます。

DSPプログラムは、入力信号に対してDFTを実行します。追加のトリックを使用して、基本波と高調波を見つけ、見つけたものに応じて、演奏したノートを推測します。ライブでプレイして特別なトリックをトリガーしているときに音符を見つけることができるため、これは高速で行われる必要があります。たとえば、ギターのA音をたたくと、DSPはそれがAであると認識し、ピアノのAに置き換えます。そのため、スピーカーからピアノの音を取得できます。

プログラムを使用して、ユーザーはこれらを移動して編集することもできますそれら。今、明らかにこれはたくさんありますより複雑ですが、それは含まれます同じこと？信号処理？私可能性にも興味があります音楽ビジュアライザーのアプリケーションとインテリジェント照明システム。

はい。周波数領域に入ると、非常に簡単になります。たとえば、音声周波数に応じて特定のライトを点灯させ、バスドラムで別のライトを点灯させることができます。

これを行うことは私の理解です圧縮オーディオの処理 MP3などの形式は同じ結果になりませんを含むMIDIとしての結果別のトラック（たぶん私は誤解）。

これらは2つの異なるものです。 MP3は、音波からの圧縮形式です。基本的には、スピーカーを操縦するものを取り、圧縮します。考え方は同じです：DFT、それから聞こえそうにないものを削除します（たとえば、高強度の音の直後に高音が聞こえる可能性が低いため、削除されます）。

一方、MIDIはイベントのスクロールです（極西のピアノのように、巻物の巻物があります）。ファイルには音楽が含まれていません。代わりに、MIDIプレーヤーが特定の楽器で特定の時間に特定のノートを実行するための指示が含まれています。「計器銀行」の品質（とりわけ）悪いMIDIプレーヤー（子供のおもちゃのように聞こえる）と良いMIDIプレーヤー（特にピアノやバイオリンの場合はリアルに聞こえ、管楽器の場合はリアルなものを聞く必要がある）を区別するものです。

それは

他のヒント

私の理解では、MP3などの圧縮オーディオ形式でこの処理を行うと、別々のトラックを含むMIDIと同じ結果が得られません（誤解された可能性があります）。

MIDIは、基本的に楽器情報と音符を保存します。その他の効果（音量、ピッチベンド、ビブラート、アタックレートなど）

実際にはデジタル信号処理ではありません。

PCMなどの非圧縮形式はMP3よりも優れているでしょうか

たぶんいくらか。それはアプリケーションに依存します。 MP3は、人間が敏感ではない周波数の精度を低下させます。視覚化を行いたい場合、MP3はおそらく問題ありません。

しかし、たとえば、録音でどの種類の楽器が演奏されているかを判断したい場合は、人間が敏感ではない周波数に有用な情報が隠されている可能性があります。

デジタル信号処理の科学者およびエンジニア向けガイドは素晴らしいプログラマ向けリファレンス。第8章では、離散フーリエ変換について説明します（MP3処理やその他の多くの場所で使用され、波の成分周波数を分離します）。

これを使用して、マウスで波形を描画し、DFTを適用して、含める周波数の数を選択できるグラフィカルプログラムを作成しました。すばらしい運動でした。

少し前に、ギターを弾いている人の録音を聞いて、実際のノート/コードでタイムライン上に自動的にグラフ化できるアプリケーションのプレビューを見ました（ごめん、名前を忘れました）プレイされました。

Melodyneについても考えているかもしれません： http://www.celemony.com/cms/

Cubaseの新しいバージョンのVariオーディオはかなり似ていますが。：）

探しているものとしようとしていることを正確に定義する必要があると思います。

DSP について学びたい場合は、 MIDI または PCM Wikipediaおよび参考文献には多くの情報があります。

利用可能なオーディオ操作のアプリケーションは数多くあります。質問であなたが説明したのは、すべてのデジタル録音スタジオで行われていることです（最近ではほとんどすべてのスタジオを占めるようになります）。

たとえば、ギターサウンドに対して何らかのDSPを実行する場合、理想的には、ドラムまたはボーカルを含むミックスダウントラックではなく、ギター自体の録音が必要です。かなりのレベルの「ノイズ」を含む信号を分析するよりも、追加のノイズなしで離散信号を分析する方がより良い結果が得られることは明らかです。そのため、「MP3」よりもマルチトラック録音の方が望ましいでしょう。

典型的なMP3には左右のチャンネル（トラック）が含まれているため、技術的にはマルチトラックです。音楽が（少なくとも専門的には）録音されると、異なる信号が異なるトラックに録音されます。これにより、後で個別に編集および処理できるようになります。

それでは、サウンドをどうしますか？

他の回答が指摘しているように、これはMIDIとはまったく関係ありません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow