Codepfad
Parameter w: 0.00
Loss J(w) (MSE-Nähe): 0.00
Ziel w*: 2.50
Lernrate: 0.25
Verfahren: Batch
Momentum beta: 0.00
Schritte: 0
Kurvendiagramm: Blau = Loss J(w) | Rot = aktueller Punkt | Orange = Spur (ab 1. Klick) | Grün = Zielminimum
Der Wanderer ist der rote Punkt. Ziel ist der grüne Talpunkt (Minimum). Die blaue Kurve bleibt gleich, nur Punkt und Spur bewegen sich.
x-Achse: Parameter w | y-Achse: Loss J(w) (MSE-nah) | Didaktische 1D-Ansicht derselben Fehleridee wie in eurer linearen Regression (R)

Interaktive Steuerung: Verfahren, Lernrate, Momentum, Parameter

Gradient-Variante Was? Wählt, wie viele Daten pro Update genutzt werden: Batch (alle), Mini-Batch (Teilmenge), Stochastic (einzelne Beobachtung). Warum? Damit ihr Stabilität gegen Geschwindigkeit direkt vergleichen könnt. Batch
Lernrate alpha Was? Bestimmt die Schrittgröße pro Update. Zu klein = sichere Baby-Schritte, aber langsam. Zu groß = Überschießen bis zur Divergenz. Passend = schnell und stabil Richtung Minimum. 0.25
Momentum beta Was? Nutzt den Verlauf vorheriger Gradienten als Trägheit. Warum? Kann Zickzack reduzieren und die Bewegung entlang stabiler Richtungen beschleunigen. 0.00
Parameter w (Live) Was? Setzt das Startgewicht w und damit die Abwurfstelle des Wanderers auf der Kurve. Warum? Von dort startet das Lernen; je nach Startpunkt wird der Weg ins Tal leichter oder schwieriger. 6.00
Merksatz: GD minimiert die Loss-Funktion J(w). Die Lernrate steuert die Schrittweite, das Verfahren die Gradienten-Qualität, Momentum die Trägheit.

Vorteile, Grenzen, Lehrplanbezug

  • MSE als Loss: Wir minimieren J(w), um bessere Modellparameter zu erhalten.
  • Batch/Mini-Batch/SGD: stabiler vs. schneller, dafür unterschiedlich verrauschte Updates.
  • Lernrate alpha: zu klein = langsam, zu groß = Divergenz-Risiko.
  • Normal Equation: geschlossene Lösung für lineare Regression, GD als iterative Alternative.
  • Under the hood: In Bibliotheken immer Solver-Doku prüfen, ob GD genutzt wird.
  • Praxis: Nach Training immer mit Testdaten validieren (Generalisierung statt Demo-Effekt).