Mathematik für Machine Learning

Ein interaktives Repository für mathematische Fundamente.

Zweck dieses Projekts

Der ML Math Hub ist eine spezialisierte Sammlung von Konzepten und Informationen, die essentiell sind, um die mathematischen Hintergründe hinter Machine Learning (ML) und Künstlicher Intelligenz (KI) tiefgreifend zu verstehen. Das Ziel ist es, die Logik hinter den Formeln Schritt für Schritt zu erarbeiten und als Wissensbasis festzuhalten.

Statistik & Wahrscheinlichkeit

Diskrete vs. stetige Variablen, Erwartungswerte und Streuungsmaße.

Unterseite öffnen

Lineare Algebra

Demnächst verfügbar: Matrizenrechnung und Eigenwerte.

Analysis

Demnächst verfügbar: Gradient Descent und Kettenregel.

Mathe-Tips & Griechische Syntax

Name Symbol Code Bedeutung
$\mu$$\mu$Mittelwert / Erwartungswert ($E[X]$)
Sigma$\sigma$$\sigma$Standardabweichung (Streuung)
Theta$\theta$$\theta$Allgemeine Modellparameter / Gewichte
Alpha$\alpha$$\alpha$Lernrate beim Gradient Descent
Epsilon$\epsilon$$\epsilon$Fehlerterm / statistisches Rauschen

Statistik & Wahrscheinlichkeit

Diskrete Variablen, Erwartungswerte und Streuungsmaße.

(a) Diskrete Wahrscheinlichkeitsfunktion (pmf)

x

(b) Stetige Dichtefunktion (pdf)

x

Diskrete Zufallsvariablen

Definition: Erwartungswert & Durchschnitt

Der Erwartungswert $E(X)$ für eine diskrete Zufallsvariable ist die Summe der einzelnen Ereigniswerte multipliziert mit der Wahrscheinlichkeit für das Eintreten dieses Ereignisses. Das ist dann der Durchschnittswert $\mu$.

Bei einer diskreten Zufallsvariablen $X$ können wir jedem Ergebnis $x_i$ eine exakte Wahrscheinlichkeit zuweisen. Diese Wahrscheinlichkeit wird als Punktwahrscheinlichkeit bezeichnet: $Pr(X = x_i)$.

Beispiel: Fairer Münzwurf

0.5
Kopf (1)
0.5
Zahl (0)

Summe der Wahrscheinlichkeiten: 1.0

$E[X] = (1 \cdot 0.5) + (0 \cdot 0.5) =$ 0.5

Beispiel: Fairer Würfel

1
2
3
4
5
6

Summe der Wahrscheinlichkeiten: 1.0

$E[X] = \sum_{i=1}^{6} x_i \cdot \frac{1}{6} =$ 3.5

Erkennungsmerkmale von Verteilungen

1. Text-Kontext

Definition im Begleittext (z.B. "Würfel").

2. Wertebereich

Menge der Ergebnisse $\{x_i\}$.

3. Tilde-Notation

Kurzschrift $X \sim \text{Verteilung}$.

Standardabweichung ($\sigma$)

Was sagt $\sigma$ eigentlich aus?

Während $\mu$ sagt, wo die "Mitte" ist, beschreibt $\sigma$ die Streuung. In der KI ist $\sigma$ oft ein Maß für Unsicherheit oder Vielfalt.

Kleines $\sigma$

Die Daten liegen alle sehr nah am Durchschnitt. Ein Modell ist sich hier sehr "sicher", da die Ergebnisse einheitlich sind.

Großes $\sigma$

Die Daten sind weit verstreut. Es gibt große Unterschiede oder hohe Unsicherheit bei der Vorhersage.

Schritt 1: Der Kern

Abstand jedes Wertes $X$ vom Mittelwert $\mu$: $(X - \mu)$

Schritt 2: Die Quadrierung

Verhindert Aufhebung und gewichtet Ausreißer: $( \dots )^2$

Schritt 3: Der Operator $E[\dots]$ (Summe)

$$ \sigma = \sqrt{\sum_{i=1}^{k} \underbrace{(x_i - \mu)^2}_{\text{Quadrat-Abstand}} \cdot \underbrace{Pr(X = x_i)}_{\text{Gewichtung}}} $$

Schritt 4: Die Korrektur

Die Wurzel $\sqrt{\dots}$ bringt uns zurück auf die ursprüngliche Einheit.

Die vollständige Definition

$$ \sigma = \sqrt{\sum_{i=1}^{k} (x_i - \mu)^2 \cdot Pr(X = x_i)} $$

Standardabweichung = Wurzel aus dem Erwartungswert der quadrierten Abweichungen.

Zusammenfassung der Formeln

Erwartungswert
$$ E[X] = \sum_{i=1}^{k} x_i \cdot Pr(X = x_i) $$

Der gewichtete Durchschnittswert aller Realisierungen.

Varianz
$$ Var(X) = E[(X - E[X])^2] $$

Ein Maß für die Streuung um den Erwartungswert.