Стоимость более 1, есть ошибка?
-
16-10-2019 - |
Вопрос
Я вычисляю стоимость следующим образом:
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(y, y_)
cost = tf.reduce_mean(cross_entropy);
За первую стоимость я получаю 0,693147, что следует ожидать в бинарной классификации, когда параметры/веса инициализируются до 0.
Я использую метки one_hot.
Однако после завершения эпохи обучения с использованием стохастического градиента спуска я нахожу стоимость более 1.
Этого ожидать?
Решение
Следующий кусок кода по существу делает то, что TF softmax_cross_entropy_with_logits
функции выполняют (Crossentropy на Softmaxed y_
а также y
):
import scipy as sp
import numpy as np
def softmax(x):
e_x = np.exp(x - np.max(x))
return e_x / e_x.sum(axis=0)
def crossentropy(true, pred):
epsilon = 1e-15
pred = sp.maximum(epsilon, pred)
pred = sp.minimum(1-epsilon, pred)
ll = -sum(
true * sp.log(pred) + \
sp.subtract(1,true) * \
sp.log(sp.subtract(1, pred))
) / len(true)
return ll
==
true = [1., 0.]
pred = [5.0, 0.5]
true = softmax(true)
pred = softmax(pred)
print true
print pred
print crossentropy(true, pred)
==
[ 0.73105858 0.26894142]
[ 0.98901306 0.01098694]
1.22128414101
Как вы можете видеть, нет никаких причин, по которой кроссентерропия на бинарной классификации не может быть> 1, и нетрудно придумать такой пример.
** Крестная аванция рассчитывается как в https://www.kaggle.com/wiki/logarithmicloss, Softmax, как в https://en.wikipedia.org/wiki/softmax_function
UPD: Есть отличное объяснение того, что это значит, когда LogLoss> 1 в SO: https://stackoverflow.com/a/35015188/1166478