Sie können jede andere vorherige Verteilung für Ihre Parameter verwenden, um interessantere Regularisierungen zu erstellen. Man kann sogar sagen, dass Ihre Parameter w sind normalverteilt aber korreliert mit einer Korrelationsmatrix Σ.
Nehmen wir an, dass Σ ist positiv-definitiv, d. h. wir befinden uns im nicht entarteten Fall. Ansonsten gibt es keine Dichte P(w).
Wenn Sie nachrechnen, werden Sie feststellen, dass wir dann optimieren müssen
für eine Matrix Γ. Hinweis: Γ ist invertierbar und es gilt Σ⁻¹ = ΓᵀΓ. Dies wird auch genannt Tichonow-Regularisierung.
Hinweis: Beginnen Sie damit
und denken Sie daran, dass positiv-definite Matrizen sein können zerlegt in ein Produkt einer invertierbaren Matrix und ihrer Transponierten.
Großartig, wir haben unser Modell definiert und wissen, was wir optimieren möchten. Aber wie können wir es optimieren, additionally die besten Parameter lernen, die die Verlustfunktion minimieren? Und wann gibt es eine einzigartige Lösung? Lass es uns herausfinden.
Gewöhnliche kleinste Quadrate
Nehmen wir an, dass wir keine Regularisierung durchführen und keine Stichprobengewichte verwenden. Dann kann die MSE geschrieben werden als:
Das ist ziemlich abstrakt, additionally schreiben wir es anders als
Benutzen Matrizenrechnungkönnen Sie die Ableitung dieser Funktion nach bilden w (Wir gehen davon aus, dass der Bias-Time period B ist dort enthalten).
Wenn Sie diesen Gradienten auf Null setzen, erhalten Sie am Ende
Wenn die (N × ok)-Matrix X hat einen Rang von okdas gilt auch für (ok × ok)-Matrix XᵀX, dh es ist invertierbar. Warum? Es folgt von Rang(X) = Rang(XᵀX).
In diesem Fall erhalten wir die einzigartige Lösung
Notiz: Softwarepakete optimieren nicht auf diese Weise, sondern verwenden stattdessen den Gradientenabstieg oder andere iterative Techniken, da dies schneller ist. Dennoch ist die Formel nett und gibt uns einige allgemeine Einblicke in das Downside.
Aber ist das wirklich ein Minimal? Wir können es herausfinden, indem wir den Hesse-Wert berechnen XᵀX. Die Matrix ist seitdem positiv-semidefinit wᵀXᵀXw = |Xw|² ≥ 0 für alle w. Es ist eben streng positiv-definitiv seit XᵀX ist invertierbar, d. h. 0 ist kein Eigenvektor, additionally unser Optimum w minimiert tatsächlich unser Downside.
Perfekte Multikollinearität
Das warfare der freundliche Fall. Aber was passiert, wenn X hat einen Rang kleiner als ok? Dies kann passieren, wenn wir zwei Options in unserem Datensatz haben, von denen eines ein Vielfaches des anderen ist, z. B. wenn wir die Options verwenden Höhe (in m) Und Höhe (in cm) in unserem Datensatz. Dann haben wir Höhe (in cm) = 100 * Höhe (in m).
Es kann auch passieren, wenn wir kategoriale Daten im One-Scorching-Verfahren codieren und eine der Spalten nicht löschen. Zum Beispiel, wenn wir eine Funktion haben Farbe in unserem Datensatz, der rot, grün oder blau sein kann, dann können wir eine One-Scorching-Kodierung durchführen und erhalten am Ende drei Spalten color_red, color_green, Und Farbe blau. Für diese Funktionen haben wir color_red + color_green + color_blue = 1, was ebenfalls perfekte Multikollinearität induziert.
In diesen Fällen ist der Rang von XᵀX ist auch kleiner als okdaher ist diese Matrix nicht invertierbar.
Ende der Geschichte.
Oder nicht? Eigentlich nein, denn es kann zwei Dinge bedeuten: (XᵀX)w = Xᵀj hat
- keine Lösung bzw
- unendlich viele Lösungen.
Es stellt sich heraus, dass wir in unserem Fall eine Lösung mithilfe von erhalten können Moore-Penrose-Umkehrung. Dies bedeutet, dass es sich um unendlich viele Lösungen handelt, die uns alle den gleichen (Trainings-) mittleren quadratischen Fehlerverlust liefern.
Wenn wir die Moore-Penrose-Umkehrung von bezeichnen A von A⁺, wir können das lineare Gleichungssystem lösen als
Um die anderen unendlich vielen Lösungen zu erhalten, addieren Sie einfach den Nullraum von XᵀX zu dieser spezifischen Lösung.
Minimierung mit Tikhonov-Regularisierung
Denken Sie daran, dass wir unseren Gewichten eine Prior-Verteilung hinzufügen könnten. Wir mussten dann minimieren
für eine invertierbare Matrix Γ. Befolgen Sie die gleichen Schritte wie bei gewöhnlichen kleinsten Quadraten, dh Ableitung nach w und das Ergebnis auf Null zu setzen, lautet die Lösung
Der nette Teil:
XᵀX + ΓᵀΓ ist immer invertierbar!
Lassen Sie uns herausfinden, warum. Es genügt zu zeigen, dass der Nullraum von XᵀX + ΓᵀΓ ist nur {0}. Nehmen wir additionally eine w mit (XᵀX + ΓᵀΓ)w = 0. Unser Ziel ist es nun, das zu zeigen w = 0.
Aus (XᵀX + ΓᵀΓ)w = 0 daraus folgt
was wiederum |Γ impliziertw| = 0 → Γw = 0. Seit Γ ist invertierbar, w muss 0 sein. Mit der gleichen Berechnung können wir sehen, dass auch die Hesse-Funktion positiv-definit ist.