Programaticamente 'ouvindo' o som (processamento de sinal?)

https://stackoverflow.com/questions/1628071

06-07-2019
|

Pergunta

Estou familiarizado com Visão computacional (Bem, saiba disso), do qual um aplicativo pode ser reconhecimento de imagem, como Reconhecimento óptico de caracteres, Eu acredito. No entanto, algo em que estou mais interessado é a 'escuta do computador', que acabei de aprender é considerada Processamento de sinal digital.

O que mais me interessa sobre o processamento de sinal é a aplicação potencial da música. Lembro -me de um tempo atrás, vi uma prévia de um aplicativo (Desculpe, esqueci o nome) que poderia ouvir uma gravação de alguém tocando um violão e o gráfica automaticamente em uma linha de tempo com as notas/acordes reais que foram tocados. Usando o programa, o usuário conseguiu movê -los e até editá -los. Agora, obviamente, isso é muito mais complicado, mas envolve a mesma coisa? Processamento de sinal? Também estou interessado em possíveis aplicações em visualizadores de música e sistemas de iluminação inteligentes.

Meu entendimento é que fazer esse processamento em um formato de áudio compactado, como o MP3, não produzirá os mesmos resultados que o MIDI, que contém faixas separadas (talvez eu compreendi mal). Um formato não compactado como o PCM faria melhor que o MP3? Não sei nada sobre processamento de som, é exatamente isso que estou deduzindo do que li até agora.

eu já vi essa questão que tem ótimas respostas e links que cobrem muitas das minhas perguntas. No entanto, a maioria dos links que encontrei são teóricos, o que tenho certeza é interessante e definitivamente vale a pena ler, dado meu interesse no assunto, mas eu queria saber se existem bibliotecas existentes que podem facilitar isso, ou artigos referentes a esse assunto que voltou para a ciência/programação da computação, com talvez um código de exemplo. Mesmo os visualizadores de som/música de código aberto ou qualquer outro código de processamento de som de código aberto seria ótimo.

Desculpe se não fiz nenhum sentido. Como eu disse, não sei do que estou falando.

Solução

O que mais me interessa sobre o processamento de sinal é a aplicação potencial da música. Lembro -me de um tempo atrás, vi uma prévia de um aplicativo (desculpe, esqueci o nome)

Pode ser Cubase ?

que poderia ouvir uma gravação de alguém tocando um violão e o gráfica automaticamente em uma linha de tempo com as notas/acordes reais que foram tocados

Profundamente simplificado, quando você toca uma nota, produz uma onda periódica com uma determinada frequência. Há um truque matemático (a transformação de Fourier DFT) que converte a onda no espectro, que, em vez de apresentar intensidade contra o tempo, mostra -o contra a frequência da onda. Por exemplo, uma nota perfeita de um garfo de ajuste produziria uma onda oscilante a 440 Hz. No domínio do tempo, isso apareceria como uma onda sinusoidal. No domínio da frequência, ele aparecerá como um único pico estreito centrado em 440 Hz.

Agora, quando você toca um violão, não produz ondas sinusoidais perfeitas. Atingir um A produzirá a frequência fundamental, 440 Hz, mas também muitas frequências adicionais (por exemplo, 880, em oitava mais alto, mas também muitos outros freqs superiores e inferiores), devido à física da corda vibratória, o material e forma do violão etc. essas frequências adicionais são chamadas de harmônicos e se misturam com o fundamental para produzir "o som do violão" (o que no jargão musical é chamado timbre). Um instrumento diferente (digamos piano) terá uma mistura diferente de harmônicos com o fundamental, produzindo um timbre diferente.

O que os programas DSP fazem é executar uma DFT no sinal de entrada. Com truques adicionais, eles acham os fundamentais e os harmônicos e, de acordo com o que acham que inferem a nota que você jogou. Isso deve acontecer rapidamente, porque você pode encontrar a nota enquanto joga ao vivo e desencadeia truques especiais. Por exemplo, você pode acertar um bilhete no violão, o DSP entende que é um A e o substitui pelo A de um piano; portanto, dos alto -falantes que você obtém o som de um piano.

Usando o programa, o usuário conseguiu movê -los e até editá -los. Agora, obviamente, isso é muito mais complicado, mas envolve a mesma coisa? Processamento de sinal? Também estou interessado em possíveis aplicações em visualizadores de música e sistemas de iluminação inteligentes.

Sim. Quando você estiver no domínio da frequência, as coisas ficam muito fáceis. Por exemplo, você pode iluminar uma luz específica de acordo com as frequências de voz e outra luz com o bumbo.

Meu entendimento é que fazer esse processamento em um formato de áudio compactado, como o MP3, não produzirá os mesmos resultados que o MIDI, que contém faixas separadas (talvez eu compreendi mal).

São duas coisas diferentes. O MP3 é um formato compactado de uma onda sonora. Basicamente, leva o que pilota os alto -falantes e o comprime. A idéia é a mesma: DFT, depois a remoção de coisas que é improvável que sejam ouvidas (por exemplo, um tom alto que vem logo após um som de alta intensidade é menos provável de ser ouvido, para que seja removido).

Midi, por outro lado, é um pergaminho de eventos (você sabe, como os pianos no extremo oeste, com o rolamento de papel). O arquivo não contém música. Ele contém instruções para um jogador MIDI executar notas específicas em momentos específicos com instrumentos específicos. A qualidade do "banco de instrumentos" é (entre outras coisas) o que distingue um jogador midi ruim (que soa como um brinquedo infantil) de um bom jogador MIDI (que parece realista, em particular para pianos e violinos, para instrumentos de vento que eu ainda tem que ouvir um realista).

Demora isso de Midi para MP3, você apenas se apresenta através de um jogador MIDI. Fazer o contrário é uma história completamente diferente e muito mais complexa, e aqui é onde o DSP entra em jogo, como você disse.

É como ferver um tanque de fisk. Você pega uma sopa de peixe. Mas para ir da sopa de peixe de volta ao tanque de peixes, é muito mais difícil.

Um formato não compactado como o PCM faria melhor que o MP3?

O PCM é uma técnica para converter um sinal analógico em um sinal digital. Portanto, sua pergunta tem um mal -entendido fundamental, que não existe um formato PCM (o formato bruto é uma ligação, contanando basicamente nada além de dados grosseiros). Se você perguntar se um WAV não compactado (que contém dados do PCM) é melhor que o MP3, então sim, mas a pergunta às vezes é o quanto isso realmente importa para o ouvido humano e quanto pós -processamento você deve executar nesses dados.

Saiba se existem bibliotecas existentes que podem facilitar isso, ou artigos referentes a esse assunto que se voltam para a ciência/programação da computação, com talvez um código de exemplo. Mesmo os visualizadores de som/música de código aberto ou qualquer outro código de processamento de som de código aberto seria ótimo.

Se você gosta de python, Dê uma olhada nesta página

Desculpe se não fiz nenhum sentido. Como eu disse, não sei do que estou falando.

Eu também não, mas brinquei um pouco com isso.

Outras dicas

Meu entendimento é que fazer esse processamento em um formato de áudio compactado, como o MP3, não produzirá os mesmos resultados que o MIDI, que contém faixas separadas (talvez eu compreendi mal).

Midi armazena essencialmente informações de instrumentos e notas musicais. Também outros efeitos (volume, curva de inclinação, vibrato, taxa de ataque etc.)

Não é realmente processamento de sinal digital.

Um formato não compactado como o PCM faria melhor que o MP3?

Talvez um pouco; depende do aplicativo. Mp3 reduz a precisão de frequências que humanos não são sensíveis a. Se você quiser fazer visualizações, o MP3 provavelmente está bem.

Mas, se você quiser, digamos, determinar que tipo de instrumento está tocando em uma gravação, pode haver informações úteis ocultas nas frequências às quais os humanos não são sensíveis.

Eu penso O Guia do Cientista e Engenheiro para Processamento de Sinais Digital é um excelente Referência para programadores. O capítulo 8 explica a transformação discreta de Fourier (usada no processamento de MP3 e muitos outros lugares para separar as frequências do componente de uma onda).

Usei -o para ajudar a criar um programa gráfico que permita desenhar uma onda com o mouse, depois apliquei o DFT e permitir que você selecione quantas frequências incluem. Foi um ótimo exercício.

Lembro-me de um tempo atrás, vi uma prévia de um aplicativo (desculpe, esqueci o nome) que poderia ouvir uma gravação de alguém tocando um violão e o gráfico automaticamente em uma linha de tempo com as notas/acordes reais que foram tocados .

Você também pode estar pensando em Melodyne: http://www.celemony.com/cms/

Embora o Vari Audio na versão mais recente do Cubase seja bastante semelhante. :)

Eu acho que você precisa definir exatamente o que está procurando e o que está tentando fazer.

Se você quiser aprender sobre Dsp, Midi ou PCM Depois, há muitas informações sobre a Wikipedia e referências.

Existem muitas inúmeras aplicativos para manipulação de áudio disponíveis. O que você descreveu em sua pergunta é o que acontece em todos os estúdios de gravação digital (que hoje em dia representaria quase todos os estúdios) todos os dias.

Se você pretende executar um pouco de DSP contra, digamos, um som de guitarra, idealmente teria uma gravação da própria guitarra (em vez de uma faixa mista contendo bateria ou vocais). Deve ser obviamente que você obtenha melhores resultados analisando um sinal discreto sem ruído adicional do que analisará um sinal contendo níveis significativos de 'ruído'. Então, sim, uma gravação multitrack seria preferível a 'um mp3'.

O MP3 típico contém canais esquerdo e direito (faixas) para que tecnicamente seja multitrack. Quando a música é gravada (profissionalmente, pelo menos) sinais diferentes são gravados em faixas diferentes, precisamente para que possam ser editadas e processadas discretamente mais tarde.

O que, então, você quer fazer com os sons?

Como outras respostas apontaram, isso não se relaciona com o MIDI.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow