2014-12-05 7 views
13

Sto studiando le reti neurali convenzionali. Sono confuso su alcuni strati della CNN.ReLu e dropout in CNN

Riguardo a ReLu ... So solo che è la somma di una funzione logistica infinita, ma ReLu non si connette a nessun livello superiore. Perché abbiamo bisogno di ReLu, e come funziona?

Per quanto riguarda il dropout ... Come funziona il drop out? Ho ascoltato un video di G. Hinton. Ha detto che esiste una strategia che ignora a metà dei nodi, a caso, quando si allena il peso e dimezza il peso quando si preannuncia. Dice che è stato ispirato da foreste casuali e funziona esattamente come calcolare la media geometrica di questi modelli addestrati a caso.

Questa strategia è la stessa del dropout?

Qualcuno può aiutarmi a risolvere questo?

+1

Un'ottima risorsa è il [tutorial CVPR 2014 sul riconoscimento visuale su larga scala] (https://sites.google.com/site/lsvrtutorialcvpr14/home/deeplearning) di [Marc'Aurelio Ranzato] (http://www.cs.toronto.edu/~ranzato/). Introduce e dettaglia tutti e due gli argomenti. – deltheil

+0

@deltheil Mi dispiace, ma non riesco a trovare nulla riguardo al dropout nella carta che hai collegato. La ricerca nel documento di "dropout" restituisce tre occorrenze, tutte e tre solo una menzione che il dropout è usato qui. Avete un numero di pagina in cui il dropout dei dettagli? L'ho già letto ma non ho trovato nulla sul dropout – DBX12

risposta

15

relu: La funzione raddrizzatore è una funzione di attivazione f (x) = Max (0, x) che può essere utilizzato da neuroni come qualsiasi altra funzione di attivazione, un nodo utilizzando la funzione di attivazione del raddrizzatore chiamato un nodo ReLu. Il motivo principale per cui viene utilizzato è il modo in cui può essere calcolato in modo efficiente rispetto alle funzioni di attivazione più convenzionali come la sigmoide e la tangente iperbolica, senza fare una differenza significativa all'accuratezza della generalizzazione. La funzione di attivazione del raddrizzatore viene utilizzata al posto di una funzione di attivazione lineare per aggiungere non linearità alla rete, altrimenti la rete sarebbe sempre in grado di calcolare una funzione lineare.

Dropout: Sì, la tecnica descritta è la stessa del dropout. La ragione per cui l'ignoranza casuale dei nodi è utile è perché impedisce l'interdipendenza emergente tra i nodi (i nodi I.e. non apprendono le funzioni che si basano su valori di input da un altro nodo), ciò consente alla rete di apprendere una relazione più solida. L'implementazione dell'abbandono ha lo stesso effetto di prendere la media da un comitato di reti, tuttavia il costo è significativamente inferiore sia in termini di tempo che di spazio richiesto.

+1

Doese ReLu si connette a un livello superiore? Controllo l'architettura di AlexNet per il compito di imagenet. Sembra che ReLu sia uno strato indipendente. Se è così, non passa il valore ai livelli superiori. Perché abbiamo bisogno di questo strato "irrilevante"? – user3783676

+3

Un ReLu è solo un singolo neurone che implementa la funzione di attivazione del raddrizzatore * max (0, n) *, non un livello completamente nuovo. Sebbene il rapporto non indichi i dettagli esatti, sembra che questa funzione di attivazione sia utilizzata su ciascun neurone della rete, sia nei livelli convoluzionali che in quelli completamente connessi. – Hungry

+0

La funzione ReLu sembra ancora lineare. È in grado di risolvere problemi e sigmoid? – gisek

Problemi correlati