REgression ist eine maschinelle Lernaufgabe, deren Ziel darin besteht, einen realen Wert basierend auf einer Reihe von Merkmalsvektoren vorherzusagen. Es gibt eine große Vielfalt an Regressionsalgorithmen: lineare Regression, logistische Regression, Gradient Boosting oder neuronale Netze. Während des Trainings passt jeder dieser Algorithmen die Gewichte eines Modells basierend auf der zur Optimierung verwendeten Verlustfunktion an.
Die Wahl einer Verlustfunktion hängt von einer bestimmten Aufgabe und bestimmten Werten einer Metrik ab, die zur Erreichung erforderlich sind. Viele Verlustfunktionen (wie MSE, MAE, RMSLE usw.) konzentrieren sich auf die Vorhersage des erwarteten Werts einer Variablen anhand eines Merkmalsvektors.
In diesem Artikel werfen wir einen Blick auf eine spezielle Verlustfunktion namens Quantilverlust Wird verwendet, um bestimmte variable Quantile vorherzusagen. Bevor wir uns mit den Particulars des Quantilverlusts befassen, wollen wir kurz den Begriff eines Quantils überarbeiten.
Quantil qₐ ist ein Wert, der eine gegebene Zahlenmenge so teilt, dass α * 100% der Zahlen sind kleiner als der Wert und (1 – α) * 100% Anzahl der Zahlen ist größer als der Wert.
Quantile qₐ für α = 0,25, α = 0,5 Und α = 0,75 werden häufig in der Statistik verwendet und aufgerufen Quartile. Diese Quartile werden als bezeichnet Q₁, Q₂ Und Q₃ bzw. Drei Quartile teilen die Daten in vier gleiche Teile auf.
Ebenso gibt es Perzentile p, die eine gegebene Menge von Zahlen durch 100 gleiche Teile teilen. Ein Perzentil wird als pₐ bezeichnet, wobei α der Prozentsatz der Zahlen ist, die kleiner als der entsprechende Wert sind.
Die Quartile Q₁, Q₂ und Q₃ entsprechen den Perzentilen p₂₅, p₅₀ bzw. p₇₅.
Im folgenden Beispiel werden für eine gegebene Zahlenmenge alle drei Quartile gefunden.
Algorithmen für maschinelles Lernen, die darauf abzielen, ein bestimmtes Variablenquantil vorherzusagen, verwenden den Quantilverlust als Verlustfunktion. Bevor wir zur Formulierung übergehen, betrachten wir ein einfaches Beispiel.
Stellen Sie sich ein Downside vor, bei dem das Ziel darin besteht, das 75. Perzentil einer Variablen vorherzusagen. Tatsächlich entspricht diese Aussage der Aussage, dass Vorhersagefehler in 75 % der Fälle negativ und in den anderen 25 % positiv sein müssen. Das ist die eigentliche Instinct, die hinter dem Quantilverlust steckt.
Formulierung
Die Quantilverlustformel ist unten dargestellt. Der α Der Parameter bezieht sich auf das Quantil, das vorhergesagt werden muss.
Der Wert des Quantilverlusts hängt davon ab, ob eine Vorhersage kleiner oder größer als der wahre Wert ist. Um die Logik dahinter besser zu verstehen, nehmen wir an, dass unser Ziel darin besteht, das 80. Quantil und damit den Wert von vorherzusagen α = 0,8 wird in die Gleichungen eingesetzt. Im Ergebnis sieht die Formel so aus:
Grundsätzlich bestraft der Quantilverlust in einem solchen Fall unterschätzte Vorhersagen viermal stärker als überschätzte. Auf diese Weise ist das Modell kritischer gegenüber unterschätzten Fehlern und wird häufiger höhere Werte vorhersagen. Dies führt dazu, dass das angepasste Modell die Ergebnisse im Durchschnitt in etwa 80 % der Fälle überschätzt und in 20 % der Fälle zu unterschätzten Ergebnissen führt.
Gehen Sie jetzt davon aus, dass zwei Vorhersagen für dasselbe Ziel erhalten wurden. Das Ziel hat einen Wert von 40, während die Vorhersagen bei 30 und 50 liegen. Berechnen wir den Quantilverlust in beiden Fällen. Obwohl der absolute Fehler von 10 in beiden Fällen gleich ist, ist der Verlustwert unterschiedlich:
- für 30 beträgt der Verlustwert l = 0,8 * 10 = 8
- für 50 beträgt der Verlustwert l = 0,2 * 10 = 2.
Diese Verlustfunktion ist im Diagramm unten dargestellt, das Verlustwerte für verschiedene Parameter von zeigt α wenn der wahre Wert 40 ist.
Umgekehrt, wenn der Wert von α 0,2 betrug, würden überschätzte Vorhersagen viermal stärker bestraft werden als unterschätzte.
Das Downside der Vorhersage eines bestimmten variablen Quantils heißt Quantilregression.
Lassen Sie uns einen synthetischen Datensatz mit 10.000 Stichproben erstellen, in dem die Bewertungen von Spielern in einem Videospiel basierend auf der Anzahl der Spielstunden geschätzt werden.
Lassen Sie uns die Daten zu Zug und Take a look at im Verhältnis 80:20 aufteilen:
Lassen Sie uns zum Vergleich drei Regressionsmodelle mit unterschiedlichen Werten erstellen α Werte: 0,2, 0,5 und 0,8. Jedes der Regressionsmodelle wird von LightGBM erstellt – einer Bibliothek mit einer effizienten Implementierung der Gradientenverstärkung.
Basierend auf den Informationen der offizielle DokumentationLightGBM ermöglicht die Lösung von Quantilregressionsproblemen durch Angabe der Zielsetzung Parameter als ‚Quantil‘ und Übergabe eines entsprechenden Werts von Alpha.
Nach dem Coaching von 3 Modellen können diese zum Erhalten von Vorhersagen verwendet werden (Zeile 6).
Lassen Sie uns die Vorhersagen mithilfe des folgenden Codeausschnitts visualisieren:
Aus dem obigen Streudiagramm geht hervor, dass bei größeren Werten von α, neigen Modelle dazu, mehr überschätzte Ergebnisse zu liefern. Vergleichen wir außerdem die Vorhersagen jedes Modells mit allen Zielwerten.
Dies führt zu folgender Ausgabe:
Das Muster aus der Ausgabe ist deutlich zu erkennen: für alle αsind die vorhergesagten Werte ungefähr größer als die wahren Werte α * 100 % von Fällen. Daher können wir experimentell den Schluss ziehen, dass unsere Vorhersagemodelle korrekt funktionieren.
Vorhersagefehler von Quantilregressionsmodellen sind ungefähr in α negativ * 100% der Fälle und sind positiv (1 – α) * 100% von Fällen.
Wir haben den Quantilverlust entdeckt – eine versatile Verlustfunktion, die in jedes Regressionsmodell integriert werden kann, um ein bestimmtes variables Quantil vorherzusagen. Am Beispiel von LightGBM haben wir gesehen, wie man ein Modell so anpasst, dass es ein Quantilregressionsproblem löst. Tatsächlich ermöglichen viele andere beliebte Bibliotheken für maschinelles Lernen die Festlegung des Quantilverlusts als Verlustfunktion.
Der in diesem Artikel verwendete Code ist verfügbar Hier:
Sofern nicht anders angegeben, stammen alle Bilder vom Autor.