是否可以创建一个神经网络,该神经网络在输入可以在不同的长度向量的情况下提供一致的输出?

目前,我正在采样大量的音频文件,这些文件的长度不同,并且必须训练神经网络为我提供了一定的输入,为我提供了所需的输出。我正在尝试创建一个可以生成MFCC功能的回归网络,给定音频文件的示例,该示例的长度不同,从而使数量不同。

有帮助吗?

解决方案

是的,通过将音频作为序列将 复发性神经网络(RNN). 。您可以针对序列结束时正确的目标训练RNN,甚至可以预测从输入中的另一个序列偏移。

但是请注意,有 有点了解RNN建设和培训的选择, ,在查看更简单的分层馈送网络的同时,您尚未研究。现代的RNN使用包括内存门在内的图层设计 - 两个最受欢迎的架构是LSTM和GRU,并且由于内存门还需要学习权重外,它们还需要在层之间和内部的权重学习之外,为每个层增加了更多可训练的参数。

RNN被广泛用于从已经在MFCC或类似功能集中处理过的音频序列预测,因为它们可以将测序数据作为输入和/或输出处理,这是处理可变长度数据(例如)时的理想功能 口语词汇, ,音乐等

其他值得注意的事情:

  • RNN可以很好地适应 序列 可变长度的数据,以及序列进化的尺寸明确的尺寸。但是它们不太适合没有明确顺序或序列的可变大小的功能集。

  • RNN可以获得信号处理,NLP和相关任务的最新结果,但仅当有大量培训数据时。如果有更少的数据,其他更简单的模型也可以同样更强。

  • 对于从原始音频样本生成MFCC的具体问题:虽然应该可以创建一个RNN,以预测RAW Audio的MFCC功能,但这可能需要一些精力和实验才能正确,并且可能会占用很多处理能力来制作能力一个足够强大的RNN可以在正常音频样本速率下应对很长的序列。尽管使用FFT开头的标准方法从原始音频创建MFCC将要简单得多,并且保证是准确的。

许可以下: CC-BY-SA归因
scroll top