Frage

Ist es möglich, ein neuronales Netzwerk zu erstellen, das eine konsistente Ausgabe liefert, da sich die Eingabe in unterschiedlichen Längenvektoren befinden kann?

Ich bin derzeit in einer Situation, in der ich viele Audiodateien, die unterschiedlich lang sind, probiert habe und ein neuronales Netzwerk trainieren muss, bietet mir die gewünschte Ausgabe, wenn sie eine bestimmte Eingabe haben. Ich versuche, ein Regressionsnetzwerk zu erstellen, mit dem MFCC -Funktionen angesichts einer Audiodatei mit unterschiedlicher Länge generiert werden können, was unterschiedliche nummerierte Eingaben ergibt.

War es hilfreich?

Lösung

Ja, das ist möglich, indem das Audio als Sequenz in a behandelt wird Wiederkehrendes neuronales Netzwerk (RNN). Sie können ein RNN gegen ein Ziel trainieren, das am Ende einer Sequenz korrekt ist, oder sogar einen anderen Sequenzversatz aus der Eingabe vorherzusagen.

Beachten Sie jedoch, dass es vorhanden ist Ein bisschen, um sich über Optionen zu informieren, die in die Konstruktion und Ausbildung eines RNN eingehen, dass Sie noch nicht studiert haben, während Sie sich einfachere Layered Feed-Forward-Netzwerke ansehen. Moderne RNNs verwenden Schichtdesigns, die Speichergitter enthalten - die beiden beliebtesten Architekturen sind LSTM und GRU. Diese fügen in jede Ebene mehr trainierbare Parameter hinzu, da die Speichergitter zusätzlich zu den Gewichten zwischen und innerhalb der Ebene Gewichte lernen müssen.

RNNs werden ausgiebig verwendet, um aus Audiosequenzen vorherzusagen, die bereits in MFCC- oder ähnlichen Feature -Sätzen verarbeitet wurden, da sie sequenzierte Daten als Eingabe und/oder Ausgabe verarbeiten können. Dies ist eine wünschenswerte Funktion beim Umgang mit Daten mit variabler Länge wie z. B. gesprochenes Wort, Musik usw.

Einige andere Dinge, die es wert sind, bemerken zu werden:

  • RNNs können gut funktionieren für Sequenzen von Daten, die variable Länge sind und in denen sich eine genau definierte Dimension befindet, über die sich die Sequenzen entwickeln. Sie sind jedoch weniger gut für Merkmalssätze in variabler Größe angepasst, bei denen keine klare Reihenfolge oder Sequenz vorhanden ist.

  • RNNs können hochmoderne Ergebnisse für die Signalverarbeitung, NLP und verwandte Aufgaben erzielen, jedoch nur, wenn eine sehr große Anzahl von Trainingsdaten vorhanden ist. Andere, einfachere Modelle können genauso gut oder besser funktionieren, wenn weniger Daten vorhanden sind.

  • Für das spezifische Problem der Erzeugung von MFCCs aus RAW -Audio -Proben: Während es möglich sein sollte, ein RNN zu erstellen, das MFCC -Funktionen aus dem RAW -Audio vorhersagt, kann dies einige Anstrengungen und Experimente erfordern, um richtig zu werden, und möglicherweise viel Verarbeitungskraft zur Herstellung von Verarbeitungskraft erfordern Ein RNN, der leistungsfähig genug ist, um mit sehr langen Sequenzen bei normalen Audio -Stichprobenraten fertig zu werden. Bei der Erstellung von MFCC aus dem RAW -Audio mit dem Standardansatz, der mit FFT beginnt, ist es viel einfacher und garantiert garantiert genau.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top