Вопрос

Можно ли создать нейронную сеть, которая обеспечивает постоянный вывод, учитывая, что вход может быть в векторах разной длины?

В настоящее время я нахожусь в ситуации, когда я пробовал много аудиофайлов, которые имеют разные длины, и приходится обучать нейронную сеть, дает мне желаемый вывод, учитывая определенный вход. Я пытаюсь создать регрессионную сеть, которая может генерировать функцию MFCC, учитывая образцы аудиофайла, которая имеет различную длину, что делает различный пронумерованный вход.

Это было полезно?

Решение

Да, это возможно путем рассматриваемого аудио как последовательности в Повторяющаяся нейронная сеть (RNN). Анкет Вы можете обучить RNN против цели, которая является правильной в конце последовательности, или даже для предсказания еще одного смещения последовательности с ввода.

Обратите внимание, однако, что есть Немного узнать о вариантах, которые входят в строительство и обучение RNN, что вы еще не будете изучать, рассматривая более простые слоистые сети с переводом. Современные RNN используют конструкции слоев, которые включают в себя ворота памяти - две наиболее популярные архитектуры - это LSTM и GRU, и они добавляют более обучаемые параметры в каждый слой, поскольку ворота памяти должны изучать веса в дополнение к весам между и внутри слоя.

RNN широко используются для прогнозирования из аудио последовательностей, которые уже обрабатывались в MFCC или аналогичных наборах функций, поскольку они могут обрабатывать последовательные данные как входные и/или выходные данные, и это желательная функция при работе с данными переменной длины, такими как как произнесенное слово, музыка и т. д.

Некоторые другие вещи стоит отметить:

  • RNN могут хорошо работать для последовательности данных, которые имеют переменную длину, и где существует четко определенное измерение, в котором развиваются последовательности. Но они менее хорошо адаптированы для наборов функций переменного размера, где нет четкого порядка или последовательности.

  • RNN могут получить самые современные результаты для обработки сигналов, НЛП и связанных с ними задач, но только тогда, когда существует очень большое количество учебных данных. Другие, более простые, модели могут работать так же хорошо или лучше, если данных меньше.

  • Для конкретной проблемы генерации MFCC из необработанных образцов звука: хотя должно быть возможно создать RNN, который прогнозирует функции MFCC от необработанного аудио, это может потребоваться некоторые усилия и эксперименты, чтобы получить правильно RNN, достаточно мощный, чтобы справиться с очень длинными последовательностями при нормальных показателях дискретизации звука. Хотя создание MFCC из RAW Audio с использованием стандартного подхода, начиная с FFT, будет намного проще, и гарантированно будет точным.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top