Maschinelles Lernen | Verlustfunktionen | Regression | Einstufung
Erkundung der häufigsten Verlustfunktionen beim maschinellen Lernen
Verlustfunktionen spielen im Bereich des maschinellen Lernens eine wichtige Rolle, da sie als Leitfaden für das Coaching von Modellen und die Optimierung ihrer Leistung dienen. Das Herzstück jedes Lernalgorithmus sind Verlustfunktionen, die den Unterschied zwischen vorhergesagten und tatsächlichen Ergebnissen messen. Ob es darum geht, Fehler zu minimieren, die Wahrscheinlichkeit zu maximieren oder ein bestimmtes Ziel zu erreichen, Verlustfunktionen bilden die Grundlage des Modelltrainings. Dies ermöglicht iterative Anpassungen, die zu einer verbesserten Genauigkeit der Modelle führen. Verlustfunktionen ermöglichen es Praktikern des maschinellen Lernens, Modelle zu verfeinern und bessere Ergebnisse zu erzielen. Das Ziel jedes ml-Modells besteht darin, die Verlustfunktion zu minimieren. Daher ist es wichtig, die häufigsten Verlustfunktionen beim maschinellen Lernen zu kennen.
Schauen wir uns einige häufig verwendete Verlustfunktionen für Regressions- und Klassifizierungsaufgaben an.
In den folgenden Formeln:
ŷ = vorhergesagter Wert, y = tatsächlicher Wert und n = Anzahl der Beobachtungen.
1. Mittlerer absoluter Fehler
- MAE Misst die durchschnittliche absolute Differenz zwischen vorhergesagten und tatsächlichen Werten. In dieser Verlustfunktion heben sich die positiven und negativen Fehler nicht gegenseitig auf.
- Dies wird auch als bezeichnet L1-Verlust.
- Vorteil: Strong gegenüber Ausreißern und endgültiger Fehler in den gleichen Einheiten wie die ursprüngliche Zielvariable.
- Nachteil: Kleine Fehler sind genauso wichtig wie große Fehler.
2. Mittlere quadratische Fehler
- Misst die quadrierte Differenz zwischen vorhergesagten und tatsächlichen Werten.
- Wird auch als L2-Verlust bezeichnet.
- Größere Fehler tragen einen größeren Beitrag als kleinere Fehler bei und reagieren daher empfindlich auf Ausreißer.
3. Mittlerer quadratischer Fehler
- Diese Funktion ermittelt die Quadratwurzel des mittleren quadratischen Fehlers.
- Die resultierenden Werte haben die gleichen Einheiten wie die Zielvariable und stellen somit ein aussagekräftiges und interpretierbares Maß für den durchschnittlichen Vorhersagefehler dar.
4. Huber-Verlust
- Der Huber-Verlust ist eine Kombination aus dem mittleren absoluten Fehler und dem mittleren quadratischen Fehler.
- Es ist so konzipiert, dass es im Vergleich zu MSE weniger empfindlich auf Ausreißer reagiert. Vereinfacht ausgedrückt verhält sich der Huber-Verlust bei kleineren Fehlern (ŷ – yi) wie MSE und bei größeren Fehlern wie MAE. Durch die Einführung eines Schwellenwertparameters, der oft als Delta (δ) bezeichnet wird, wird ein Gleichgewicht zwischen beiden hergestellt.
- Wenn der absolute Fehler (|ŷ – yi|) kleiner oder gleich dem Schwellenwert (δ) ist, wird der Verlust als quadratischer Fehler (ŷ – yi)² multipliziert mit dem Faktor 1/2 berechnet. Dieses Verhalten ähnelt MSE.
- Wenn der absolute Fehler jedoch den Schwellenwert überschreitet, wird der Verlust als absoluter Fehler multipliziert mit dem Schwellenwert (δ) abzüglich eines konstanten Termes (1/2) multipliziert mit dem Quadrat des Schwellenwerts (δ²) berechnet. Dieses Verhalten ähnelt MAE.
- Ein größerer Schwellenwert macht die Verlustfunktion toleranter gegenüber Ausreißern und ähnelt dem MAE-Verhalten für einen größeren Fehlerbereich. Umgekehrt macht ein kleinerer Schwellenwert die Verlustfunktion empfindlicher gegenüber Ausreißern, was dem MSE-Verhalten über einen größeren Fehlerbereich ähnelt.
5. Log Cosh-Verlust
Hier, cosh = hyperbolische Kosinusfunktion
- Die Log-Cosh-Verlustfunktion ist eine glatte Näherung der Huber-Verlustfunktion. Sie wird häufig als differenzierbare Verlustfunktion bei Regressionsaufgaben verwendet, insbesondere beim Umgang mit Ausreißern.
- Sie ähnelt der Huber-Verlustfunktion darin, dass sie sich für kleinere Fehler wie der mittlere quadratische Fehler (MSE) und für größere Fehler wie der mittlere absolute Fehler (MAE) verhält.
- Die Log-Cosh-Verlustfunktion bestraft sowohl constructive als auch destructive Fehler symmetrisch und macht sie so strong gegenüber Ausreißern
- Nachteil: Es ist rechenintensiv.
- Binäre Kreuzentropie (BCE)
yi = tatsächliche Bezeichnung (entweder 0 oder 1) der Beobachtung und p = vorhergesagte Wahrscheinlichkeit der positiven Klasse (im Bereich zwischen 0 und 1)
- Der BCE-Verlust misst die Unähnlichkeit zwischen den vorhergesagten Wahrscheinlichkeiten und den tatsächlichen Bezeichnungen des binären Klassifizierungsproblems.
- Die BCE-Verlustfunktion regt das Modell dazu an, hohe Wahrscheinlichkeiten für constructive Stichproben (Klasse 1) und niedrige Wahrscheinlichkeiten für destructive Stichproben (Klasse 0) auszugeben. Die Minimierung des BCE-Verlusts hilft dabei, das Modell zu trainieren, um genaue Vorhersagen zu treffen und die zugrunde liegenden Muster in der binären Klassifizierungsaufgabe zu lernen
2. Mehrklassenübergreifender Entropieverlust oder Kategorischer Kreuzentropieverlust
Eine Erweiterung des binären Kreuzentropieverlusts auf Klassifizierungsaufgaben mit mehreren Klassen.
Hier ist y = One-Scorching-codierter Vektor der wahren Klassenbezeichnungen für eine Stichprobe und p = vorhergesagte Klassenwahrscheinlichkeiten. Der logarithmische Time period stellt sicher, dass der Verlust das Modell stärker belastet, wenn es mit hoher Sicherheit falsche Vorhersagen trifft. Die Summe wird über alle Klassen im Drawback gebildet. Für jede Klasse wird die wahre Klassenbezeichnung (y) mit dem Logarithmus der entsprechenden vorhergesagten Wahrscheinlichkeit (p) multipliziert. Der Verlust wird dann negiert, um daraus ein Minimierungsproblem zu machen.
- Durch die Minimierung des Kreuzentropieverlusts wird das Modell dazu angeregt, höhere Wahrscheinlichkeiten für die richtige Klasse und niedrigere Wahrscheinlichkeiten für die falschen Klassen zu erzeugen.
- Der Kreuzentropieverlust wird in neuronalen Netzen häufig zur Klassifizierung mehrerer Klassen verwendet, typischerweise in Verbindung mit einer Softmax-Aktivierungsfunktion in der Ausgabeschicht. Die Softmax-Funktion stellt sicher, dass die vorhergesagten Wahrscheinlichkeiten in der Summe 1 ergeben, was eine gültige Wahrscheinlichkeitsverteilung über die Klassen darstellt.
3. Scharnierverlust
Hier ist y = tatsächliche Bezeichnung (entweder -1 oder 1) der Beobachtung, f(x) = vorhergesagte Punktzahl oder Ausgabe des Modells für die Beobachtung und max(0, z) bezeichnet die Annahme des Maximums von Null und des Werts z .
- Scharnierverlust ist eine Verlustfunktion, die häufig bei binären Klassifizierungsaufgaben verwendet wird, insbesondere bei Help-Vektor-Maschinen (SVMs).
- Die Scharnierverlustfunktion regt das Modell dazu an, höhere Werte für korrekte Klassifizierungen zu erzielen, und bestraft falsche Klassifizierungen, indem sie den Verlust linear erhöht, wenn die Marge abnimmt. Somit werden sowohl falsche als auch richtige (aber weniger sichere) Vorhersagen bestraft.
- Scharnierverlust wird häufig in SVMs verwendet, wo das Ziel darin besteht, die Hyperebene zu finden, die die Klassen mit dem größten Abstand trennt. Je größer der Spielraum, desto sicherer ist der Klassifikator bei seiner Vorhersage. Durch die Minimierung des Scharnierverlusts können SVMs Entscheidungsgrenzen lernen, die den Spielraum zwischen den Klassen maximieren.