トーチの空間構成でninputplaneを把握できませんか?
質問
空間畳み込みのドキュメーションはそれを定義します
module = nn.SpatialConvolution(nInputPlane, nOutputPlane, kW, kH, [dW], [dH], [padW], [padH])
NinputPlane:Forward()に与えられた画像内の予想入力プレーンの数。
noutputplane:畳み込み層が生成する出力平面の数。
トーチの経験はありませんが、ケラスで同様の機能を使用したと思います
Convolution2D(64, 3, 3, border_mode='same', input_shape=(3, 256, 256))
RGBで256*256である画像の形状を入力するようにします。
以下のようにトーチでの空間畳み込みの使用法を読みましたが、nuputplaneとnoutputplaneのパラメーターは何に対応しているのかを理解できません。
local convLayer = nn.SpatialConvolutionMM(384, 384, 1, 1, 1, 1, 0, 0)
上記のコードでは、これらの384,384は何を表していますか?
解決
NinputPlaneは、入力画像の層の深さまたは数です。 RGB画像の場合、これは3である必要があります。これは、 input_shape=(3, 256, 256)
.
noutputplaneは、畳み込みステップが生成するボリュームのレイヤーの数であり、入力に適用されるフィルター/カーネルの数でもあります。慣習により、各フィルターに出力層があります。これは、の最初の引数に対応します Convolution2D
働き。
所属していません datascience.stackexchange