Застрял на деконволюции в Theano и Tensorflow

https://datascience.stackexchange.com/questions/10168

16-10-2019
|

Вопрос

Я очарован автоэнкодерами, и мне очень нравится идея свертки. Однако кажется, что и Theano, и Tensorflow поддерживают Conv2d, чтобы перейти от массива 2D-RGB (n 3D-массивов) до массива с более высокими глубинными изображениями. Это имеет смысл из традиционной математики с тензором, c_ijkl = sum {a_ijk*b_klm}, но означает, что сложно «отменить» изображение.

В обоих случаях, если у меня есть изображение (в #batch, глубине, высота, форма ширины), я могу сделать конвей, чтобы получить (#batch, num_filters, height/k, width/k). Я бы очень хотел сделать наоборот, например, от (#batch, some_items, height/k, ширина/k) к (#batch, глубина, высота, ширина).

У Tensorflow была скрытая функция deconv2d на некоторое время (в 0,6, я думаю, без документов), но я хотел бы знать, есть ли математический трюк, который я могу использовать, чтобы получить больший результат в последних двух измерениях после свертки, чем вход Анкет Я бы согласился на серию дифференцируемых операций, таких как Conv -> Resize, но я хочу избежать простого умножения плотной матрицы -> изменить размер, как и я до сих пор.

Редактировать: на сегодняшний день (2016/02/17) Tensorflow 0.7 имеет метод tf.depth_to_space, который очень помогает в этом начинании. (https://www.tensorflow.org/api_docs/python/tf/depth_to_space) Я все равно хотел бы также, чтобы решение на основе Theano, чтобы завершить мое понимание материала.

Решение

В TensorFlow все изменилось, так как этот вопрос был задан, но вот ссылка на conv2d_transpose. Анкет Я думаю, это то, что ты ищешь

Другие советы

Может взглянуть на это почта. Вы можете сделать свертку, которая дает выходной сигнал аналогичного размера, а затем «неподделяется» эти карты функций.

Не уверен, что вы ищете веса фильтров в деконволюционном слое, которые будут привязаны к соответствующему сверточному слою, но либо возможно в лазани, которая работает на Theano. Развязанная реализация деконволюционного слоя, который выводит изображение больше, чем его вход: https://groups.google.com/forum/?hl=en#!topic/lasagne-users/9h6-mmnkhx0

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange