Sto studiando TensorFlow e come usarlo, anche se non sono un esperto di reti neurali e deep learnig (solo le basi).Gradient Descent vs Adagrad vs Momentum in TensorFlow
Seguendo le esercitazioni non capisco la differenza reale e pratica tra i tre ottimizzatori per una perdita. Guardo il API e comprendo i principi, ma le mie domande sono:
1. Quando è preferibile utilizzare uno anziché gli altri?
2. Ci sono differenze importanti da sapere?
Non c'è nessuna teoria su quale si suppone ottimizzatore per lavorare meglio su , ad esempio, MNIST, quindi le persone ne provano diverse e ne scelgono una che funzioni meglio per il loro problema. Gradient Descent è in genere il peggiore di tutti, Momentum/AdaGrad può essere migliore/peggiore dell'altro a seconda del set di dati –
Ok, ho bisogno di creare un modello per il riconoscimento di immagini con 4 - 5 classi di riconoscimento. Se utilizzo il set di dati Imagenet, cosa mi suggerisci? – Kyrol
AdamOptimizer sembra funzionare bene su Imagenet –