Theano exemple de régression logistique
-
16-10-2019 - |
Question
Je suis en train de comprendre certains cas, réseau de neurones simple à l'aide Théano. Le site deeplearning.net donne le code simple suivant pour la mise en œuvre d'une application de régression logistique à un cas simple:
import numpy
import theano
import theano.tensor as T
rng = numpy.random
N = 400
feats = 784
D = (rng.randn(N, feats), rng.randint(size=N, low=0, high=2))
training_steps = 10000
# Declare Theano symbolic variables
x = T.matrix("x")
y = T.vector("y")
w = theano.shared(rng.randn(feats), name="w")
b = theano.shared(0., name="b")
print("Initial model:")
print(w.get_value())
print(b.get_value())
# Construct Theano expression graph
p_1 = 1 / (1 + T.exp(-T.dot(x, w) - b)) # Probability that target = 1
prediction = p_1 > 0.5 # The prediction thresholded
xent = -y * T.log(p_1) - (1-y) * T.log(1-p_1) # Cross-entropy loss function
cost = xent.mean() + 0.01 * (w ** 2).sum()# The cost to minimize
gw, gb = T.grad(cost, [w, b]) # Compute the gradient of the cost
# (we shall return to this in a
# following section of this tutorial)
# Compile
train = theano.function(
inputs=[x,y],
outputs=[prediction, xent],
updates=((w, w - 0.1 * gw), (b, b - 0.1 * gb)))
predict = theano.function(inputs=[x], outputs=prediction)
# Train
for i in range(training_steps):
pred, err = train(D[0], D[1])
print("Final model:")
print(w.get_value())
print(b.get_value())
print("target values for D:")
print(D[1])
print("prediction on D:")
print(predict(D[0]))
Je comprends la plus grande partie, p_1 est la fonction de régression logistique, la prévision est de savoir si la valeur sera dans la classe 0 ou 1 classe, Xent est la fonction de perte, à savoir à quelle distance correcte est notre prédiction. Je ne comprends pas la ligne suivante, le coût. Ne devrait pas le coût égal au Xent, à savoir la perte? Quelle est la fonction de coût représentant ici? En outre, pourquoi le biais initialement à 0 et non un nombre aléatoire comme les poids?
La solution
Je ne comprends pas la ligne suivante, le coût. Ne devrait pas le coût égal au Xent, à savoir la perte? Quelle est la fonction de coût représentant ici?
Le coût est l'erreur (xent.mean ()) + un peu de régularisation (0,01 * (w ** 2) .sum ())
Pourquoi le biais initialement à 0 et non un nombre aléatoire comme les poids?
Il est possible et utile d'initialiser les biais à zéro, car la rupture de l'asymétrie est fournie par les petits nombres aléatoires dans les poids.