In alcune lezioni di apprendimento automatico che ho seguito di recente, ho coperto la discesa del gradiente per trovare la linea di adattamento migliore per la regressione lineare.Perché utilizziamo la discesa del gradiente nella regressione lineare?
In alcune classi di statistiche, ho imparato che possiamo calcolare questa linea utilizzando l'analisi statistica, utilizzando la media e la deviazione standard - this page covers this approach in detail. Perché questa tecnica apparentemente più semplice non è utilizzata nell'apprendimento automatico?
La mia domanda è, la discesa del gradiente è il metodo preferito per il montaggio di modelli lineari? Se è così, perché? Oppure il professore usava semplicemente la discesa del gradiente in un contesto più semplice per introdurre la classe alla tecnica?
Grazie Anreas, sono d'accordo con te su SGD - Recentemente lo sto implementando su Hadoop per set di formazione più ampi. Non capivo proprio perché avremmo usato un approccio così potente come la discesa del gradiente per un piccolo problema come ad esempio installare un modello lineare semplice, grazie per averlo chiarito. –