Question

Est-il possible de créer un réseau de neurones qui fournit une sortie cohérente étant donné que l'entrée peut être dans différents vecteurs de longueur?

Je suis actuellement dans une situation où j'échantillonné un grand nombre de fichiers audio, qui sont de différentes longueurs, et doivent former un réseau de neurones me donne la sortie désirée donné une certaine entrée. Je suis en train de créer un réseau de régression qui peut générer fonction MFCC, des échantillons donnés d'un fichier audio, qui sont d'une longueur différente, ce qui rend différente entrée numérotée.

Était-ce utile?

La solution

Oui cela est possible en traitant l'audio comme une séquence dans un récurrente Neural Network (RNN) . Vous pouvez former un RNN contre une cible qui est correcte à la fin d'une séquence, ou même de prévoir une autre séquence décalée par rapport à l'entrée.

Prenez note cependant qu'il ya un peu pour en savoir plus sur les options qui entrent dans la construction et la formation d'un RNN , que vous ne l'avez pas déjà étudié tout en regardant les réseaux d'alimentation en avant en couches plus simples. RNNs modernes utilisent des modèles de couches qui comprennent les portes de la mémoire - les deux architectures les plus populaires sont LSTM et GRU, et ceux-ci d'ajouter des paramètres plus facile à former dans chaque couche que les portes de mémoire doivent apprendre poids en plus des poids entre et à l'intérieur de la couche.

RNNs sont largement utilisés pour prédire à partir de séquences audio qui ont déjà été traitées dans MFCC ou des ensembles de fonctionnalités similaires, car ils peuvent traiter des données séquencées en entrée et / ou de sortie, ce qui est une caractéristique souhaitable lors du traitement de données de longueur variable telles comme spoken word, la musique etc.

Une autre valeur choses noter:

  • RNNs peut bien fonctionner pour séquences de données qui sont de longueur variable, et où il y a une dimension bien définie au-dessus de laquelle les séquences évoluent. Mais ils sont moins bien adaptés pour des ensembles de taille variable des fonctions où il n'y a pas d'ordre clair ou d'une séquence.

  • RNNs peut obtenir des résultats l'état de l'art pour le traitement du signal, les tâches PNL et connexes, mais seulement quand il y a une très grande quantité de données de formation. D'autres, plus simples, les modèles peuvent fonctionner tout aussi bien ou mieux s'il y a moins de données.

  • Pour le problème spécifique de générer MFCCs à partir d'échantillons audio brutes: Bien qu'il devrait être possible de créer un RNN qui prédit MFCC dispose de l'audio brut, cela pourrait prendre un peu d'effort et d'expérimentation pour obtenir le droit, et pourrait prendre beaucoup de puissance de traitement pour faire un assez puissant RNN pour faire face à des séquences très longues à des taux d'échantillonnage audio normaux. Alors que la création MFCC de l'audio brut en utilisant l'approche standard en commençant par FFT sera beaucoup plus simple, et il est garanti d'être précis.

Licencié sous: CC-BY-SA avec attribution
scroll top