トーチの空間構成でninputplaneを把握できませんか？

質問

空間畳み込みのドキュメーションはそれを定義します

module = nn.SpatialConvolution(nInputPlane, nOutputPlane, kW, kH, [dW], [dH], [padW], [padH])

NinputPlane：Forward（）に与えられた画像内の予想入力プレーンの数。

noutputplane：畳み込み層が生成する出力平面の数。

トーチの経験はありませんが、ケラスで同様の機能を使用したと思います

Convolution2D(64, 3, 3, border_mode='same', input_shape=(3, 256, 256))

RGBで256*256である画像の形状を入力するようにします。

以下のようにトーチでの空間畳み込みの使用法を読みましたが、nuputplaneとnoutputplaneのパラメーターは何に対応しているのかを理解できません。

local convLayer = nn.SpatialConvolutionMM(384, 384, 1, 1, 1, 1, 0, 0)

上記のコードでは、これらの384,384は何を表していますか？

解決

NinputPlaneは、入力画像の層の深さまたは数です。 RGB画像の場合、これは3である必要があります。これは、 input_shape=(3, 256, 256).

noutputplaneは、畳み込みステップが生成するボリュームのレイヤーの数であり、入力に適用されるフィルター/カーネルの数でもあります。慣習により、各フィルターに出力層があります。これは、の最初の引数に対応します Convolution2D 働き。

ライセンス： CC-BY-SA と帰属