Capisco il ruolo del nodo di bias nelle reti neurali e perché è importante spostare la funzione di attivazione nelle reti di piccole dimensioni. La mia domanda è questa: il pregiudizio è ancora importante in reti molto grandi (più specificamente, una rete neurale convoluzionale per il riconoscimento di immagini usando la funzione di attivazione ReLu, 3 strati convoluzionali, 2 livelli nascosti e oltre 100.000 connessioni), o il suo effetto si fa perso dal numero di attivazioni che si verificano?Il nodo bias è necessario in reti neurali molto grandi?
Il motivo per cui lo chiedo è perché in passato ho costruito reti in cui ho dimenticato di implementare un nodo di polarizzazione, tuttavia, aggiungendo uno ho visto una differenza trascurabile nelle prestazioni. Questo potrebbe essere dovuto al caso, in quanto il set di dati specifito non ha richiesto un pregiudizio? Devo inizializzare il bias con un valore maggiore nelle reti di grandi dimensioni? Qualsiasi altro consiglio sarebbe molto apprezzato.
Ah, risulta che il bias è piccolo, quindi immagino che il set di dati debba essere già sufficientemente centrato. Saluti per la risposta. – Hungry