質問

入力が異なる長さベクトルである可能性があるため、一貫した出力を提供するニューラルネットワークを作成することは可能ですか?

私は現在、長さが異なる多くのオーディオファイルをサンプリングしており、ニューラルネットワークをトレーニングする必要がある状況にあり、特定の入力を考慮して目的の出力を提供します。さまざまな長さのオーディオファイルのサンプルが与えられたため、MFCC機能を生成できる回帰ネットワークを作成しようとしています。

役に立ちましたか?

解決

はい、これはオーディオをシーケンスとして扱うことで可能です 再発ニューラルネットワーク(RNN). 。シーケンスの最後に正しいターゲットに対してRNNをトレーニングすることも、入力から別のシーケンスオフセットを予測することもできます。

ただし、あることに注意してください RNNの建設とトレーニングに参加するオプションについて少し学ぶ, 、よりシンプルな階層化されたフィードフォワードネットワークを見ている間、まだ勉強していないこと。最新のRNNは、メモリゲートを含むレイヤーデザインを使用します。2つの最も人気のあるアーキテクチャはLSTMとGRUです。これらは、メモリゲートがレイヤー間および内部の重みに加えて重みを学習する必要があるため、各レイヤーにトレーニング可能なパラメーターを追加します。

RNNは、MFCCまたは同様の機能セットで既に処理されているオーディオシーケンスから予測するために広く使用されています。これは、シーケンスされたデータを入力および/または出力として処理できるため、これは望ましい機能であるため、これは望ましい機能です。 話し言葉, 、音楽など

注目に値する他のいくつかのこと:

  • RNNはうまく機能します シーケンス 長さが変動するデータ、およびシーケンスが進化する明確に定義された次元がある場合。しかし、それらは、明確な順序やシーケンスがない可変サイズの機能セットにはあまり適していません。

  • RNNは、信号処理、NLP、および関連するタスクの最先端の結果を得ることができますが、非常に大量のトレーニングデータがある場合にのみ。他の、よりシンプルなモデルは、データが少ない場合、同様に機能します。

  • 生のオーディオサンプルからMFCCを生成する特定の問題については、生のオーディオからMFCC機能を予測するRNNを作成することが可能ですが、これは正しい努力と実験を必要とし、多くの処理能力を必要とする可能性があります。通常のオーディオサンプルレートで非常に長いシーケンスに対処するのに十分な強力なRNN。 FFTから始まる標準的なアプローチを使用して生のオーディオからMFCCを作成することは、はるかにシンプルで、正確であることが保証されています。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top