具有灵活数量输入的神经网络？

题

是否可以创建一个神经网络，该神经网络在输入可以在不同的长度向量的情况下提供一致的输出？

目前，我正在采样大量的音频文件，这些文件的长度不同，并且必须训练神经网络为我提供了一定的输入，为我提供了所需的输出。我正在尝试创建一个可以生成MFCC功能的回归网络，给定音频文件的示例，该示例的长度不同，从而使数量不同。

解决方案

是的，通过将音频作为序列将复发性神经网络（RNN）. 。您可以针对序列结束时正确的目标训练RNN，甚至可以预测从输入中的另一个序列偏移。

但是请注意，有有点了解RNN建设和培训的选择, ，在查看更简单的分层馈送网络的同时，您尚未研究。现代的RNN使用包括内存门在内的图层设计 - 两个最受欢迎的架构是LSTM和GRU，并且由于内存门还需要学习权重外，它们还需要在层之间和内部的权重学习之外，为每个层增加了更多可训练的参数。

RNN被广泛用于从已经在MFCC或类似功能集中处理过的音频序列预测，因为它们可以将测序数据作为输入和/或输出处理，这是处理可变长度数据（例如）时的理想功能口语词汇, ，音乐等

其他值得注意的事情：

RNN可以很好地适应序列可变长度的数据，以及序列进化的尺寸明确的尺寸。但是它们不太适合没有明确顺序或序列的可变大小的功能集。
RNN可以获得信号处理，NLP和相关任务的最新结果，但仅当有大量培训数据时。如果有更少的数据，其他更简单的模型也可以同样更强。
对于从原始音频样本生成MFCC的具体问题：虽然应该可以创建一个RNN，以预测RAW Audio的MFCC功能，但这可能需要一些精力和实验才能正确，并且可能会占用很多处理能力来制作能力一个足够强大的RNN可以在正常音频样本速率下应对很长的序列。尽管使用FFT开头的标准方法从原始音频创建MFCC将要简单得多，并且保证是准确的。

许可以下： CC-BY-SA 和归因