Domanda

In questo momento sto allenando una profonda rete neurale per un problema di classificazione binaria, con un set di winrate. Pertanto, ogni winrate è più grande o uguale a 0 ma inferiore a 100.

Ho ottenuto risultati promettenti senza normalizzare i dati di input, fino a quando non l'ho normalizzato e sono diventato una precisione incredibilmente peggiore.

La funzione di input è una matrice 2D di dimensioni 20 e la rete ha quattro livelli con numeri diversi di nodi in ciascun livello. Sto usando SGD Optimizer e Relu Activation per gli strati nascosti e la funzione di attivazione di Softmax per il livello di output.

La cosa che mi chiedo è perché sto ottenendo risultati migliori con la rete neurale senza la normalizzazione? È perché gli iperparametri ottimali richiesti per la rete con l'input normalizzato sono diversi da quando non è normalizzato?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top