Programmatisch "Hören" auf Sound (Signalverarbeitung?)

https://stackoverflow.com/questions/1628071

06-07-2019
|

Frage

Ich bin vertraut mit Computer Vision (Nun, wissen Sie davon), von denen eine Anwendung Bilderkennung sein kann, wie z. Optische Zeichenerkennung, Ich glaube. Etwas, an dem ich mehr interessiert bin, ist jedoch "Computer -Hör", von dem ich gerade gelernt habe, dass Digitale Signalverarbeitung.

Das, was mich am meisten an der Signalverarbeitung interessiert, ist die potenzielle Anwendung in der Musik. Ich erinnere mich, dass ich vor einiger Zeit eine Vorschau einer Anwendung gesehen habe (Entschuldigung, habe den Namen vergessen) die eine Aufnahme von jemandem hören könnte, der eine Gitarre spielt, und sie automatisch über eine Zeitlinie mit den tatsächlichen Noten/Akkorden, die gespielt wurden, über eine Zeitlinie grafisch dargestellt werden. Mit dem Programm konnte der Benutzer diese umziehen und sogar bearbeiten. Offensichtlich ist das viel komplizierter, aber betrifft es dasselbe? Signalverarbeitung? Ich interessiere mich auch für mögliche Anwendungen in Musikvisualisierern und intelligenten Beleuchtungssystemen.

Mein Verständnis ist, dass diese Verarbeitung auf einem komprimierten Audio -Format wie MP3 nicht die gleichen Ergebnisse wie MIDI liefert, das separate Tracks enthält (vielleicht habe ich missverstanden). Würde ein unkomprimiertes Format wie PCM besser abschneiden als MP3? Ich weiß nichts über Soundverarbeitung, genau das schließe ich aus dem, was ich bisher gelesen habe.

Ich habe schon gesehen diese Frage Das hat großartige Antworten und Links, die viele meiner Fragen abdecken. Die meisten Links, die ich gefunden habe, sind theoretisch, was sicher ist, dass alles interessant ist und aufgrund meines Interesses an dem Thema definitiv eine Lektüre wert ist, aber ich wollte wissen, ob es vorhandene Bibliotheken gibt, die dies erleichtern können. oder Artikel, die sich auf dieses Thema beziehen, die sich an Informatik/Programmierung ausgerichtet haben, mit möglicherweise Beispielcode. Sogar Open Source Sound/Music Visualizer oder andere Open Source Sound Processing -Code wären großartig.

Entschuldigung, wenn ich keinen Sinn gemacht habe. Wie ich schon sagte, ich weiß nicht, wovon ich spreche.

Lösung

Das, was mich am meisten an der Signalverarbeitung interessiert, ist die potenzielle Anwendung in der Musik. Ich erinnere mich, dass ich vor einiger Zeit eine Vorschau einer Bewerbung gesehen habe (Entschuldigung, den Namen vergessen)

Vielleicht Cubase ?

Dies könnte eine Aufnahme von jemandem hören, der eine Gitarre spielt

Bei tief vereinfachtem, wenn Sie eine Notiz spielen, erzeugen Sie eine periodische Welle mit einer bestimmten Frequenz. Es gibt einen mathematischen Trick (die Fourier -Transformation DFT), die die Welle in das Spektrum umwandelt, das sie anstatt Intensität gegen die Zeit zu präsentieren, sie gegen die Frequenz der Welle zeigt. Zum Beispiel würde eine perfekte Note aus einer Tuning -Gabel eine oszillierende Welle bei 440 Hz erzeugen. In der Zeitdomäne würde dies als sinusförmige Welle erscheinen. In der Frequenzdomäne erscheint es als einzelner, schmaler Spike, der bei 440 Hz zentriert ist.

Wenn Sie jetzt eine Gitarre spielen, produzieren Sie keine perfekten sinusförmigen Wellen. Das Treffer eines A wird die grundlegende Frequenz von 440 Hz, aber auch viele zusätzliche Frequenzen (z. und Form der Gitarre usw. Diese zusätzlichen Frequenzen werden als Harmonische bezeichnet, und sie mischen sich mit der Grundlage, um "den Sound der Gitarre" zu produzieren (was im Musiksprachler heißt Timbre). Ein anderes Instrument (Say Piano) wird unterschiedliche Harmonische mit dem grundlegenden Mischen haben und ein anderes Timbre produzieren.

Was DSP -Programme tun, ist, ein DFT für das Eingabetrip auszuführen. Mit zusätzlichen Tricks finden sie das Grund- und Harmonische und nach dem, was sie finden, schließen sie auf die Notiz, die Sie gespielt haben, schließen. Dies muss schnell passieren, da Sie die Notiz finden können, während Sie live spielen und besondere Tricks auslösen. Zum Beispiel könnten Sie eine A -Nachricht auf der Gitarre treffen, die DSP versteht, dass es ein A ist und sie durch das A von einem Klavier ersetzt, sodass Sie von den Lautsprechern den Klang eines Klaviers erhalten.

Mit dem Programm konnte der Benutzer diese umziehen und sogar bearbeiten. Offensichtlich ist das viel komplizierter, aber betrifft es dasselbe? Signalverarbeitung? Ich interessiere mich auch für mögliche Anwendungen in Musikvisualisierern und intelligenten Beleuchtungssystemen.

Ja. Sobald Sie sich in der Frequenzdomäne befinden, wird die Dinge sehr einfach. Zum Beispiel könnten Sie ein bestimmtes Licht gemäß den Sprachfrequenzen und ein weiteres Licht mit der Bassdrum beleuchten.

Mein Verständnis ist, dass diese Verarbeitung auf einem komprimierten Audio -Format wie MP3 nicht die gleichen Ergebnisse wie MIDI liefert, das separate Tracks enthält (vielleicht habe ich missverstanden).

Sie sind zwei verschiedene Dinge. MP3 ist ein komprimiertes Format einer Schallwelle. Grundsätzlich nimmt es das, was die Lautsprecher piloten und komprimiert sie. Die Idee ist die gleiche: DFT, dann das Entfernen von Dingen, die unwahrscheinlich sind (z. B. eine hohe Tonhöhe, die direkt nach einem hohen Intensitätsgeräusch kommt, ist weniger wahrscheinlich zu hören, so dass es entfernt wird).

MIDI hingegen ist eine Schriftrolle von Ereignissen (Sie wissen, wie diese Klaviere im äußersten Westen, mit der Rollpapier -Schriftrolle). Die Datei enthält keine Musik. Es enthält stattdessen Anweisungen für einen MIDI -Player, um bestimmte Notizen zu bestimmten Zeiten mit bestimmten Instrumenten auszuführen. Die Qualität der "Instrumentenbank" ist (unter anderem), was einen schlechten MIDI -Spieler (der wie ein Kinderspielzeug klingt) von einem guten MIDI -Spieler (was realistisch klingt, insbesondere für Klaviere und Geigen, für Windinstrumente, die ich noch immer muss eine realistische hören).

Es dauert von Midi zu MP3, Sie spielen nur einen MIDI -Player. Umgekehrt zu tun, ist eine ganz andere Geschichte und viel komplexer, und hier kommt DSP ins Spiel, wie Sie sagten.

Es ist wie das Kochen eines Fisk -Tanks. Sie bekommen eine Fischsuppe. Aber um von der Fischsuppe zurück zum Fischtank zu gelangen, ist es viel schwieriger.

Würde ein unkomprimiertes Format wie PCM besser abschneiden als MP3?

PCM ist eine Technik, um ein analoges Signal in ein digitales Signal umzuwandeln. Ihre Frage hat also ein grundlegendes Missverständnis, dass kein PCM -Format vorhanden ist (das Rohformat ist ein enger Anruf, der im Grunde nichts als grobe Daten entspricht). Wenn Sie fragen, ob ein unkomprimiertes WAV (das PCM -Daten enthält) besser als MP3 ist, dann ist die Frage manchmal, wie viel dies für das menschliche Ohr wirklich wichtig ist und wie viel Nachbearbeitung Sie für diese Daten durchführen müssen.

Wissen Sie, ob es vorhandene Bibliotheken gibt, die dies erleichtern können, oder Artikel, die sich auf dieses Thema beziehen, die sich an die Informatik/das Programmieren ausgerichtet haben, mit möglicherweise Beispielcode. Sogar Open Source Sound/Music Visualizer oder andere Open Source Sound Processing -Code wären großartig.

Wenn Sie Python mögen, Schauen Sie sich diese Seite an

Entschuldigung, wenn ich keinen Sinn gemacht habe. Wie ich schon sagte, ich weiß nicht, wovon ich spreche.

Ich auch nicht, aber ich habe ein bisschen damit gespielt.

Andere Tipps

Mein Verständnis ist, dass diese Verarbeitung auf einem komprimierten Audio -Format wie MP3 nicht die gleichen Ergebnisse wie MIDI liefert, das separate Tracks enthält (vielleicht habe ich missverstanden).

MIDI speichert im Wesentlichen Instrumenteninformationen und musikalische Notizen. Auch andere Effekte (Volumen, Pitchbiegung, Vibrato, Angriffsrate usw.)

Nicht wirklich digitale Signalverarbeitung.

Würde ein unkomprimiertes Format wie PCM besser abschneiden als MP3?

Vielleicht etwas; Es hängt von der Anwendung ab. MP3 reduziert die Präzision der Frequenzen, die Menschen sind nicht empfindlich auf. Wenn Sie Visualisierungen durchführen möchten, ist MP3 wahrscheinlich in Ordnung.

Wenn Sie jedoch feststellen möchten, welche Art von Instrument in einer Aufnahme spielt, können nützliche Informationen in den Frequenzen, auf die Menschen nicht empfindlich sind, nützliche Informationen geben.

Ich finde Der Leitfaden des Wissenschaftlers und des Ingenieurs zur digitalen Signalverarbeitung ist ein Großartig Referenz für Programmierer. Kapitel 8 erklärt die diskrete Fourier -Transformation (verwendet in der MP3 -Verarbeitung und viele andere Orte, um die Komponentenfrequenzen einer Welle zu trennen).

Ich habe es verwendet, um ein grafisches Programm zu erstellen, mit dem Sie eine Welle mit der Maus zeichnen können, dann die DFT angewendet und Sie auswählen können, wie viele Frequenzen enthalten sind. Es war eine großartige Übung.

Ich erinnere mich, dass ich vor einiger Zeit eine Vorschau einer Anwendung (sorry, den Namen vergessen habe) gesehen habe, die eine Aufnahme von jemandem hören konnte, der eine Gitarre spielt .

Sie könnten auch an Melodyne denken: http://www.celemony.com/cms/

Obwohl Vari Audio in neuerer Version von Cubase ziemlich ähnlich ist. :)

Ich denke, Sie müssen genau definieren, wonach Sie suchen und was Sie versuchen.

Wenn Sie etwas lernen möchten DSP, MIDI oder PCM Dann gibt es viele Informationen zu Wikipedia und Referenzen.

Es gibt viele unzählige Anwendungen für Audiomanipulation. Was Sie in Ihrer Frage beschrieben haben, ist das, was in jedem digitalen Aufnahmestudio (das heutzutage fast alle Studios ausmachen würde) jeden Tag stattfindet.

Wenn Sie beabsichtigen, einen DSP gegen einen Gitarren -Sound gegen eine Gitarren -Sound auszuführen, haben Sie idealerweise eine Aufnahme der Gitarre selbst (anstatt einen gemischten Track mit Trommeln oder Gesang). Es sollte ganz offensichtlich sein, dass Sie bessere Ergebnisse erhalten, die ein diskretes Signal ohne zusätzliches Rauschen analysieren, als ein Signal mit signifikanten "Rauschen" -Pegel zu analysieren. Also ja, eine Multitrack -Aufnahme wäre 'einem MP3' vorzuziehen.

Typische MP3 enthält linke und rechte Kanäle (Tracks), sodass es technisch gesehen Multitrack ist. Wenn Musik (zumindest professionell) aufgenommen wird, werden unterschiedliche Signale auf verschiedenen Tracks aufgenommen, damit sie zu einem späteren Zeitpunkt diskret bearbeitet und verarbeitet werden können.

Was möchten Sie dann mit den Geräuschen machen?

Wie andere Antworten hervorgehoben haben, bezieht sich dies überhaupt nicht auf MIDI.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow