Bei der Anwendung der Regression auf reale Daten muss sichergestellt werden, dass unser Modell optimiert ist, um die korrekte Ausgabe vorherzusagen und weniger Fehler zu machen. Im Folgenden sind einige der gängigen Metriken aufgeführt, die zur Bewertung der Modellleistung verwendet werden.
Es handelt sich im Wesentlichen um den Mittelwert des absoluten Fehlers zwischen dem tatsächlichen Wert und dem vorhergesagten Wert. Wir nehmen den absoluten Fehler an, um das adverse Vorzeichen der Werte für die Berechnung zu ignorieren.
Vorteile:
- Die Fehlereinheit entspricht der Ausgabevariable und ist daher leicht zu interpretieren.
- Sturdy gegenüber Ausreißern.
Nachteile:
- Es ist nicht differenzierbar.
Anstatt den absoluten Wert des Fehlers zu nehmen, verwendet MSE quadrierte Werte des Fehlers, um adverse Vorzeichen zu eliminieren.
Vorteile:
- Graph ist differenzierbar.
- Kann als Verlustfunktion verwendet werden.
Nachteile:
- Fehlereinheit unterscheidet sich von der Ausgabevariable
- Nicht sturdy gegenüber Ausreißern.
Es ist dasselbe wie MSE, aber am Ende der Berechnung ziehen wir die Quadratwurzel des Fehlers, um seine Einheit mit dem Ausgabemerkmal (y) zu vergleichen.
Vorteile:
- Durch die Quadratwurzel wird die Fehlereinheit mit der Ausgabevariablen (y) identisch.
Nachteile:
Es wird auch Bestimmtheitsmaß oder Anpassungsgüte genannt. Es hilft, die Leistung des Modells zu bewerten, indem es das Quadrat des Vorhersagefehlers des Regressionsmodells mit dem Quadrat des mittleren Fehlers vergleicht.
Wenn der R2-Rating gegen Null (0) geht, nimmt die Modellleistung ab.
Der R2-Rating kann durch irrelevante Funktionen beeinflusst werden, die dem Datensatz hinzugefügt werden.
Der angepasste R2-Rating wird nicht durch hinzugefügte irrelevante Spalten beeinflusst und es wird versucht, für jede verwendete Datenbank die besten Ergebnisse zu erzielen.