以编程方式“聆听”声音（信号处理？）

https://stackoverflow.com/questions/1628071

06-07-2019
|

题

我熟悉计算机视觉（嗯，知道它），其中一个应用程序可以进行图像识别，例如光学字符识别，我相信。然而，我更感兴趣的是“计算机听力”，我刚刚学到的是数字信号处理。

对信号处理最感兴趣的是音乐中的潜在应用。我记得前一段时间我看到了一个应用程序的预览（抱歉，忘记了名字），它可以收听某人弹吉他的录音，并自动在时间线上绘制出来。演奏的实际音符/和弦。使用该程序，用户可以移动它们甚至编辑它们。现在，显然这更复杂，但它是否涉及同样的事情？信号处理？我也对音乐可视化器和智能照明系统的可能应用感兴趣。

我的理解是，对MP3等压缩音频格式进行此处理不会产生与包含单独轨道的MIDI相同的结果（可能是我误解了）。 PCM等未压缩格式会比MP3更好吗？我对声音处理一无所知，这正是我从目前读到的内容中推断的。

我已经看过这个问题，它有很棒的答案和链接这涵盖了很多我的问题。但是，我发现的大多数链接都是理论上的，我确信这些链接都很有趣，鉴于我对这个主题的兴趣，我绝对值得阅读，但我想知道是否有任何现有的库可以促进这一点，或者与该主题相关的文章，这些文章面向计算机科学/编程，可能还有示例代码。即使是开源声音/音乐可视化器或任何其他开源声音处理代码也会很棒。

对不起，如果我没有任何意义。就像我说的，我不知道我在说什么。

解决方案

最让我感兴趣的事情关于信号处理是音乐的潜在应用。一世记得前一段时间我看过预览一个应用程序（对不起，忘记了名）

也许 cubase ？

可以听录音有人弹吉他，和自动将其绘制成一个时间线与实际音符/和弦发挥了

深度简化，当您弹奏音符时，会产生具有给定频率的周期波。有一个数学技巧（傅里叶变换DFT）将波转换为光谱，而不是呈现强度与时间的关系，它表明它与波的频率有关。例如，来自音叉的完美A音符将产生440 Hz的振荡波。在时域中，这将表现为正弦波。在频域中，它将显示为以440 Hz为中心的单个窄峰值。

现在，当你弹吉他时，你不会产生完美的正弦波。击中A将产生基频，440 Hz，但也会产生很多额外的频率（例如880，在倍频程上更高，但也有很多其他更高和更低的频率），由于振动弦的物理特性，材料这些额外的频率称为谐波，它们与基音混合以产生“吉他的声音”。（音乐术语中的内容称为 timbre ）。不同的乐器（比如钢琴）将具有不同的谐波与基音的混合，产生不同的音色。

DSP程序的作用是对输入信号执行DFT。通过额外的技巧，他们找到了基本和谐波，并根据他们发现的东西推断出你演奏的音符。这必须快速发生，因为你可以在现场直播和触发特殊技巧时找到音符。例如，您可以在吉他上点击A音符，DSP会将其理解为A并将其替换为钢琴中的A，因此从扬声器中您可以获得钢琴的声音。

使用该程序，用户能够移动这些甚至编辑他们。现在，显然这是很多更复杂，但它涉及到同一件事情？信号处理？一世我也对可能感兴趣音乐可视化工具中的应用智能照明系统。

是。一旦进入频域，事情变得非常容易。例如，您可以根据语音频率点亮特定的灯光，使用低音鼓点亮另一个灯光。

我的理解是这样做处理压缩音频像MP3这样的格式不会产生相同的效果结果为MIDI包含单独的轨道（也许我误解）。

他们是两回事。 MP3是来自声波的压缩格式。基本上它需要扬声器的飞行员，并压缩它。这个想法是相同的：DFT，然后删除不太可能被听到的东西（例如，在高强度声音之后出现的高音调不太可能被听到，因此它被移除）。

另一方面，MIDI是一系列事件（你知道，就像远西部的那些钢琴一样，滚动的纸卷）。该文件不包含音乐。它包含MIDI播放器在特定时间使用特定乐器执行特定音符的指示。 “仪器库”的质量（除其他外）是什么区别一个坏的MIDI播放器（听起来像一个儿童玩具）和一个好的MIDI播放器（这听起来很现实，特别是对于钢琴和小提琴，对于管乐器，我仍然必须听到一个现实的）。

需要的

其他提示

我的理解是，对MP3等压缩音频格式进行此处理不会产生与包含单独轨道的MIDI相同的结果（可能是我误解了）。

MIDI基本上存储乐器信息和音符。还有其他效果（音量，弯音，颤音，攻击率等）

不是真正的数字信号处理。

PCM等未压缩格式会比MP3更好吗？

可能有点;这取决于应用程序。 MP3降低了人对其不敏感的频率的精确度。如果你想做可视化，那么MP3可能就好了。

但是，如果您想要确定录音中正在演奏什么类型的乐器，那么可能会有隐藏在人类不敏感的频率中的有用信息。

我认为科学家和工程师的数字信号处理指南是 great 程序员的参考。第8章解释了离散傅里叶变换（用于MP3处理和许多其他地方分离出波的分量频率）。

我用它来制作一个图形程序，让你用鼠标绘制波形，然后应用DFT，让你选择要包含的频率。这是一个很棒的练习。

我记得前一段时间我看到了一个应用程序的预览（对不起，忘记了名字），它可以收听某人弹吉他的录音，并自动将其与实际音符/和弦一起划出时间线被播放了。

您可能也在考虑Melodyne： http://www.celemony.com/cms/

虽然较新版本的Cubase中的Vari音频非常相似。：）

我认为您需要准确定义您要查找的内容以及您要执行的操作。

如果您想了解 DSP ， MIDI 或 PCM 然后有很多关于维基百科和参考资料的信息。

有许多可用于音频操作的应用程序。您在问题中描述的是每一天在每个数字录音室（现在几乎所有工作室都会占几乎所有工作室）中发生的事情。

如果您打算对吉他声音执行一些DSP，那么理想情况下您可以录制吉他本身（而不是包含鼓或人声的混合音轨）。很明显，如果没有额外的噪声分析离散信号，你将获得更好的结果，而不是分析含有大量“噪音”的信号。所以是的，多轨录音比“MP3”更好。

典型的MP3包含左右声道（音轨），因此从技术上讲它是多轨道。录制音乐时（至少是专业的），不同的信号会被记录到不同的轨道上，以便以后可以对它们进行离散编辑和处理。

那么，你想用声音做什么？

正如其他答案所指出的那样，这根本与MIDI无关。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow