Interaktive Steuerung: Verfahren, Lernrate, Momentum, Parameter
Vorteile, Grenzen, Lehrplanbezug
- MSE als Loss: Wir minimieren J(w), um bessere Modellparameter zu erhalten.
- Batch/Mini-Batch/SGD: stabiler vs. schneller, dafür unterschiedlich verrauschte Updates.
- Lernrate alpha: zu klein = langsam, zu groß = Divergenz-Risiko.
- Normal Equation: geschlossene Lösung für lineare Regression, GD als iterative Alternative.
- Under the hood: In Bibliotheken immer Solver-Doku prüfen, ob GD genutzt wird.
- Praxis: Nach Training immer mit Testdaten validieren (Generalisierung statt Demo-Effekt).
Gegenüberstellung der Gradienten-Verfahren
Der Hauptunterschied liegt in der Datenmenge pro Update-Schritt. Genau das bestimmt, wie schnell trainiert wird und wie stabil der Pfad zum minimalen Fehler bleibt.
| Variante | Daten pro Schritt | Rechenaufwand | Pfad | Praxis-Relevanz |
|---|---|---|---|---|
| Batch | Gesamter Datensatz | Sehr hoch | Glatt und stabil | Eher für kleinere Datensätze |
| Stochastic (SGD) | Ein einzelner Punkt | Sehr gering | Zickzack und unruhig | Gut für Online-/Echtzeit-Updates |
| Mini-Batch | Kleine Gruppen (typisch 32-256) | Ausgewogen | Zügig und stabilisiert | Industriestandard im Deep Learning |
Merksatz: Lernrate steuert die Schrittweite, Momentum dämpft Zickzack, und Mini-Batch liefert in der Praxis meist den besten Kompromiss.
Grenzen in realen Optimierungslandschaften
- Nicht-konvexe Loss: mehrere Täler können zu lokalen Minima führen.
- Plateau-Bereiche: kleine Gradienten bremsen Fortschritt trotz weiterem Potenzial.
- Startpunkt-Effekt: unterschiedliche Initialisierungen erzeugen unterschiedliche Lernpfade.
- Gängige Gegenmaßnahmen: Random Restarts, Mini-Batch/SGD, Lernraten-Anpassung, Momentum.