Varianz im Machine Learning | Der Wettervorhersage-Wettbewerb

Breadcrumb

Startseite > Data Science > Varianz im ML

0 Prozent abgeschlossen Rang: Wetter-Azubi

Was lernst du in diesem Kapitel?

Du verstehst, warum man Daten teilt, was Varianz von Bias unterscheidet, wie der Gesamtfehler zerlegt wird und wie du mit Lernkurven, Regularisierung und mehr Daten gegen Overfitting vorgehst.

AlltagFührerscheinprüfung, Eisdiele, Wetterstationen, Dartscheibe und Fahrradfahren

DidaktikErst Bild im Kopf, dann Theorie-Karte, dann Demo, dann Quiz

TransferDu erkennst später leichter, wann KNN, Regularisierung oder mehr Daten sinnvoll sind

Der Wettervorhersage-Wettbewerb

Station Simpel bleibt stabil, Station Flexibel reagiert stark auf neue Stichproben, Station Optimal sucht die Balance.

Jede richtige Quiz-Antwort bringt 10 Punkte. Jeder Badge bringt 25 Bonuspunkte.

Das Kapitel funktioniert allein im Browser. Alles bleibt lokal auf deinem Gerät.

Schritt 1 · Generalisierung

Warum teilen wir Daten?

Trainingsdaten sind zum Üben da. Testdaten zeigen, ob das Modell auch auf Neues vorbereitet ist.

Noch offen. Bewege den Split-Regler und beantworte danach die zwei Fragen.

Alltagsanalogie

Stell dir vor, du lernst für die Führerscheinprüfung mit 100 Übungsfragen. Am Prüfungstag tauchen aber neue Fragen auf, die du vorher nicht gesehen hast. Dann zeigt sich, ob du wirklich verstanden hast oder nur auswendig gelernt hast.

Genau deshalb teilt man Daten in Training und Test. Das Modell soll nicht bloß alte Beispiele wiedererkennen, sondern mit neuen Situationen vernünftig umgehen können.

Theorie-Karte

bedeutet: Ein Teil der Daten wird zum Lernen benutzt, ein anderer Teil bleibt für die faire Prüfung zurück.

Typische Verhältnisse sind 70/30 oder 80/20. Wenn das Modell auf dem Training gut aussieht, aber auf dem Test deutlich schlechter ist, dann generalisiert es nicht sauber.

In einfacher Sprache: Training = Übungsplatz. Test = echte Prüfung.

Interaktive Demo

Split-Verhältnis live verändern

Trainingsanteil80%

Trainingsfehler

0.00

Testfehler

0.00

x-Achse: Sonnenstunden. y-Achse: verkaufte Kugeln Eis. Blau = Training, Grün = Test. „Neue Daten“ meint hier meist nicht magische Zusatzdaten, sondern den bewusst zurückgehaltenen Test-Teil derselben Tabelle.

Die Linie wird auf dem Trainingsanteil gelernt. Danach wird mit predict auf Training und Test geprüft, wie gut sie passt. Genau dieser Vergleich zeigt, ob ein Modell nur auswendig lernt oder wirklich verallgemeinert.

Quiz

Lösungen: Daten werden geteilt, damit das Modell auf neuen Daten geprüft wird. Mit nur 10 Prozent Training lernt es zu wenig Muster.

Was nimmst du mit?

Ohne Testdaten siehst du nur, wie gut dein Modell auswendig gelernt hat. Erst der Test verrät, ob es auf neue Fälle vorbereitet ist.

Schritt 2 · Modellkomplexität

Einfaches vs. komplexes Modell

Eine Gerade ist ruhig, eine Schlangenlinie kann jeden Punkt treffen. Die spannende Frage ist: Wer sagt morgen besser voraus?

Noch offen. Schalte zwischen Training und Test um und vergleiche die beiden Modelle.

Alltagsanalogie

Eine Eisdiele möchte wissen, wie viel Eis morgen verkauft wird. Modell A legt einfach ein Lineal durch die Daten. Modell B biegt sich durch jeden einzelnen Punkt wie eine Schlange.

Im Training wirkt die Schlangenlinie oft beeindruckend. Aber die entscheidende Frage ist, wie gut beide Modelle auf neuen Tagen abschneiden.

Theorie-Karte

Ein einfaches Modell hat wenige Freiheitsgrade. Es ist stabil, kann aber wichtige Muster übersehen. Ein komplexes Modell passt sich stärker an und kann dadurch auch Zufallsrauschen mitlernen.

sind die vertikalen Abstände zwischen echter Beobachtung und Vorhersage. Auf Trainingsdaten gewinnt oft das komplexe Modell. Auf Testdaten ist das nicht garantiert.

In einfacher Sprache: Links ist das Modell schlicht. Rechts wird es mit jedem zusätzlichen Potenz-Term biegsamer.

Interaktive Demo

Links: Grad 1. Die Linie reagiert ruhig, verfehlt aber manche Krümmung.

Rechts: Grad 8. Im Training kann die Kurve fast jeden Punkt treffen.

SSR Gerade

0.00

SSR Schlangenlinie

0.00

Quiz

Lösungen: Auf Trainingsdaten hat das komplexe Modell meist kleinere Residuen. Auf neuen Daten generalisiert oft das einfachere Modell besser.

Was nimmst du mit?

Ein Modell, das auf dem Training glänzt, ist nicht automatisch das bessere Modell. Entscheidend ist, wie gut es morgen, nächste Woche oder im Test bleibt.

Schritt 3 · Varianz

Was ist Varianz?

Varianz misst, wie stark sich Vorhersagen verändern, wenn das Modell mit anderen Trainingsstichproben neu lernt.

Noch offen. Starte die Stichproben-Animation und beobachte, wie stabil oder nervös die Modelle bleiben.

Alltagsanalogie

Drei Wetterstationen sollen den Eisverkauf für morgen vorhersagen. Jede Station bekommt aber eine andere Stichprobe aus den Wetterdaten der letzten Wochen.

Station Simpel sagt jedes Mal fast dasselbe. Station Flexibel wirft ihre Vorhersage ständig um, sobald sich die Stichprobe ändert. Genau dieses Schwanken ist Varianz.

Theorie-Karte

beschreibt die Streuung der Vorhersagen über viele mögliche Trainingsstichproben. Hohe Varianz heißt: Das Modell ist empfindlich und reagiert stark auf kleine Unterschiede in den Daten.

Hohe Varianz ist eng mit Overfitting verknüpft. Das Modell lernt dann nicht nur das Signal, sondern auch den Zufall in der Stichprobe.

In einfacher Sprache: Wie weit liegen die einzelnen Vorhersagen um ihren Durchschnitt auseinander?

Interaktive Demo

Varianz Simpel (Grad 1)

niedrig

Varianz Flexibel (Grad 8)

hoch

Die Balken fassen zusammen, wie stark die Vorhersagen am selben Punkt zwischen mehreren Stichproben schwanken.

Blaugrün: ruhige Gerade. Bordeaux: nervöse Schlangenlinie. Graue Punkte: aktuelle Trainingsstichprobe.

Quiz

Lösungen: Hohe Varianz bedeutet stark schwankende Vorhersagen bei neuen Trainingsdaten. Man erkennt sie, indem man mehrere Splits vergleicht und auf die Streuung der Fehler schaut.

Was nimmst du mit?

Varianz ist die Nervosität eines Modells. Wenn es seine Meinung bei jeder neuen Stichprobe zu stark ändert, ist das ein Warnsignal.

Schritt 4 · Bias

Was ist Bias?

Bias ist der systematische Fehler: Das Modell liegt dauerhaft in dieselbe Richtung daneben.

Noch offen. Bewege den Grad-Slider und beobachte, wie Bias und Varianz gegeneinander laufen.

Alltagsanalogie

Eine Uhr, die immer zehn Minuten nachgeht, ist verlässlich falsch. Sie springt nicht wild herum, sondern hat eine dauerhafte Schieflage. Genau das macht Bias im Modellbau greifbar.

Ein zu simples Modell hat oft hohen Bias, weil es wichtige Muster gar nicht erst erfassen kann. Dann liegt es auf Training und Test gleichermaßen grob daneben.

Theorie-Karte

Bias ist die systematische Abweichung zwischen durchschnittlicher Vorhersage und wahrer Funktion. Hoher Bias bedeutet: Das Modell ist zu simpel oder trifft falsche Annahmen.

Mit steigender Modellkomplexität sinkt Bias oft, aber dafür steigt meist die Varianz. Genau daraus entsteht später der Tradeoff.

In einfacher Sprache: Wie weit liegt der Durchschnitt der Vorhersagen von der Wahrheit entfernt?

Interaktive Demo

Polynom-Grad1

Bias

hoch

Varianz

niedrig

Gestrichelt: wahrer Zusammenhang. Durchgezogen: dein Modell. Punkte: beobachtete Daten.

Quiz

Lösungen: Hoher Bias heißt: zu einfaches Modell, wichtige Muster fehlen. Er zeigt sich durch hohen Fehler auf Training und Test.

Was nimmst du mit?

Bias ist kein Zufallszittern, sondern eine dauerhafte Schlagseite. Mehr Flexibilität kann Bias senken, löst aber nicht automatisch alle Probleme.

Schritt 5 · Fehlerzerlegung

Die Fehlerzerlegung

Der Gesamtfehler setzt sich aus Bias², Varianz und unvermeidbarem Rauschen zusammen.

Noch offen. Ziehe den Komplexitäts-Slider und beobachte, wie sich die drei Fehleranteile verschieben.

Alltagsanalogie

Beim Elfmeterschießen kannst du immer etwas links zielen, mal höher oder tiefer streuen und zusätzlich noch von einer Windböe gestört werden. Der gesamte Fehlschuss kommt also nicht aus nur einer Quelle.

Im Machine Learning ist es ähnlich: Systematischer Fehler, Streuung und echtes Rauschen addieren sich zum Gesamtproblem.

Theorie-Karte

MSE ist der mittlere quadratische Fehler. In der Bias-Varianz-Zerlegung wird dieser Fehler gedanklich in drei Teile aufgespalten: Bias², Varianz und irreduzibler Fehler.

Der irreduzible Fehler ist das Rauschen der Welt. Ein besseres Modell kann ihn nicht einfach wegzaubern.

In einfacher Sprache: Gesamtfehler = systematische Schlagseite + Nervosität + unvermeidbares Rauschen.

Interaktive Demo

Modellkomplexität1

Bias²

0.0

Varianz

0.0

Rauschen

0.0

Gesamtfehler

0.0

Der Marker zeigt dir, wo der Fehler im Moment liegt. Die gestrichelte Linie markiert das globale Minimum im Diagramm.

x-Achse: Modellkomplexität. y-Achse: Fehlerhöhe. Je weiter rechts, desto kleiner der Bias, aber desto größer die Varianz.

Quiz

Lösungen: Der Gesamtfehler besteht aus Bias², Varianz und irreduziblem Fehler. Rauschen bleibt auch mit besseren Modellen bestehen.

Was nimmst du mit?

Man kann nicht einfach nur „den Fehler“ sehen und fertig. Es hilft enorm, den Fehler in seine Bestandteile zu zerlegen, weil dann klarer wird, an welcher Stellschraube du drehen musst.

Schritt 6 · Tradeoff

Der Bias-Varianz-Tradeoff

Mehr Komplexität senkt oft Bias, erhöht aber häufig die Varianz. Der liegt dazwischen.

Noch offen. Wirf zehn Darts und prüfe, wie Bias und Varianz bei niedriger, mittlerer und hoher Komplexität aussehen.

Alltagsanalogie

Stell dir eine Dartscheibe vor. Das Zentrum ist die perfekte Vorhersage. Jeder Wurf steht für ein Modell, das mit einem neuen Datensatz gelernt wurde.

Hoher Bias heißt: alle Würfe landen systematisch neben der Mitte. Hohe Varianz heißt: die Würfe fliegen wild auseinander. Ziel ist ein enger Cluster nahe am Zentrum.

Theorie-Karte

Wenn du Bias reduzierst, wird das Modell meist flexibler. Diese zusätzliche Flexibilität kann aber zu mehr Varianz führen. Genau dieses Gegeneinander ist der Bias-Varianz-Tradeoff.

Der Sweet Spot ist ein Modell, das weder zu schlicht noch zu nervös ist. Häufig ist das einfachere, aber stabile Modell vertrauenswürdiger als ein Modell mit wilden Ausreißern.

In einfacher Sprache: Weniger Bias kostet oft mehr Varianz. Das beste Modell balanciert beides.

Interaktive Demo

Modell-Komplexitätmittel

Bias

mittel

Varianz

mittel

Das Zentrum ist die ideale Vorhersage. Die Treffer zeigen, wie sich neue Trainingsdaten auf das Modell auswirken.

Quiz

Lösungen: Der Tradeoff beschreibt das Gegeneinander von sinkendem Bias und steigender Varianz. Moderater Bias mit niedriger Varianz ist oft vertrauenswürdiger.

Was nimmst du mit?

Das beste Modell ist selten das extrem einfachste und selten das extrem flexibelste. Gesucht ist ein stabiler Mittelweg.

Schritt 7 · Diagnose

Diagnose: Lernkurven lesen

Lernkurven zeigen, ob beide Fehler hoch bleiben oder ob sich eine problematische Lücke zwischen Training und Test aufspannt.

Noch offen. Bewege den Trainingsgrößen-Regler und vergleiche Underfitting, Overfitting und guten Fit.

Alltagsanalogie

Beim Fahrradfahren fällt man am Anfang oft hin. Mit mehr Übung wird die Bewegung sicherer. Eine Lernkurve zeigt ganz ähnlich, wie sich der Fehler eines Modells verändert, wenn mehr Trainingsdaten dazukommen.

Spannend ist nicht nur, ob der Fehler sinkt, sondern auch, wie weit Training und Test auseinanderliegen.

Theorie-Karte

Eine hat auf der x-Achse die Trainingsgröße und auf der y-Achse den Fehler, hier vereinfacht als RMSE. Trainingsgröße heißt hier einfach: Wie viele Zeilen aus den verfügbaren Daten gerade wirklich zum Lernen benutzt werden. Underfitting zeigt zwei hohe, nahe Kurven. Overfitting zeigt eine große Lücke zwischen Training und Test.

Ein guter Fit führt beide Kurven auf niedrigerem Niveau zusammen. Kleine Wellen oder Mini-Zacken sind normal, weil jeder zusätzliche Datenteil die Schätzung etwas verändert. Wichtig ist das Gesamtmuster, nicht jeder einzelne Buckel.

In einfacher Sprache: Mehr Daten helfen nur dann wirklich, wenn das Modell grundsätzlich passend gebaut ist.

Interaktive Demo

Trainingsgröße40

Links siehst du Underfitting, rechts Overfitting. Der zusätzliche gute Fit kann per Knopfdruck eingeblendet werden. Achte mehr auf den Abstand und das Niveau der Kurven als auf kleine Zacken zwischen zwei Nachbarpunkten.

Beide Kurven bleiben relativ hoch und nahe beieinander. Das Modell ist zu simpel, nicht zu nervös.

Trainingsfehler niedrig, Testfehler deutlich höher: die klassische Lücke. Genau diese dauerhafte Lücke ist wichtiger als kleine Wellen in der Linie.

Quiz

Lösungen: Overfitting zeigt eine große Lücke zwischen Training und Test. Underfitting zeigt zwei hohe Kurven, die nahe beieinander liegen.

Was nimmst du mit?

Lernkurven sind wie ein Diagnosegespräch mit dem Modell. Sie zeigen dir, ob du eher mehr Daten brauchst oder ob das Modell selbst das Kernproblem ist.

Schritt 8 · Gegenmaßnahmen

Gegenmaßnahmen: Regularisierung & mehr

Wenn Varianz zu hoch wird, helfen oft weniger Komplexität, mehr Daten oder Regularisierung.

Noch offen. Spiele mit Alpha, wechsle zwischen Ridge, Lasso und Elastic Net und beobachte die Koeffizienten.

Alltagsanalogie

Stell dir vor, dein Modell ist ein Buffet-Gast, der alles auf seinen Teller lädt, auch unnötige Sachen. Regularisierung ist die freundliche Person am Buffet, die sagt: Nimm nur so viel mit, wie du wirklich brauchst.

Dadurch wird das Modell gezwungen, schlanker zu bleiben und sich nicht an jedes kleine Zufallsdetail zu klammern.

Theorie-Karte

Overfitting bekämpfst du oft durch weniger Modellkomplexität, mehr Daten oder . Underfitting bekämpfst du eher durch bessere Features, flexiblere Modelle oder das Lockern überstrenger Regularisierung.

Ridge schrumpft alle Koeffizienten Richtung null. Lasso kann einzelne Koeffizienten ganz auf null setzen. Elastic Net mischt beide Ideen.

In einfacher Sprache: Alpha steuert, wie streng das Modell bei seinen Gewichten auf Diät gesetzt wird.

Interaktive Demo

Alpha1.0

Testfehler

0.00

Interpretation

sanfte Schrumpfung

Jeder Balken steht für ein Feature. Lasso kann Balken exakt auf null drücken.

Quiz

Lösungen: Regularisierung begrenzt Gewichte gegen Overfitting. Lasso kann Koeffizienten auf null setzen. Gegen Underfitting helfen eher bessere Modelle, bessere Features oder schwächere Regularisierung.

Was nimmst du mit?

Wenn Varianz das Problem ist, musst du nicht immer das ganze Modell wegwerfen. Oft reicht es, das Modell zu zügeln, Daten zu ergänzen oder nur die wirklich wichtigen Features zu behalten.