Modellbewertung
Modellauswahl
In diesem speziellen Fall haben die relativen Anteile von False Positives (FP) und False Negatives (FN) keine wesentlichen Auswirkungen auf das Unternehmen. Daher liegt das Hauptaugenmerk auf der Entwicklung eines Modells, das die Zielvariable genau vorhersagen kann. Die verwendeten Bewertungsmetriken sind daher die Genauigkeit, die den Anteil korrekter Vorhersagen an der Gesamtstichprobe misst, und der ROC-AUC-Rating, der die Fähigkeit des Modells bewertet, zwischen den beiden Klassen zu unterscheiden.
Durch die Priorisierung der Genauigkeit besteht das Ziel darin, die Gesamtkorrektheit der Vorhersagen zu maximieren, ohne den Kompromiss zwischen FP und FN besonders hervorzuheben. Der ROC-AUC-Rating bietet ein umfassendes Maß für die Leistung des Modells über verschiedene Klassifizierungsschwellenwerte hinweg und zeigt die Fähigkeit des Modells an, die Klassen korrekt einzuordnen. Dieser Ansatz ermöglicht eine ausgewogenere Bewertung und Auswahl des Modells basierend auf seiner Fähigkeit, die Zielvariable genau vorherzusagen.
Das beste Modell wurde aus dem Modell ausgewählt, das den höchsten durchschnittlichen ROC-AUC-Rating für die Testdaten ergab und keine Über- oder Unteranpassung anzeigt. Basierend auf der obigen Tabelle ist das gewählte Modell Zufälliger Wald mit einem Durchschnitt ROC-AUC-Rating für Testdaten von 0,999998.
Verwirrung Matrix
Klasse 0: BEV (Batterieelektrisches Fahrzeug)
Klasse 1: PHEV (Plug-in-Hybrid-Elektrofahrzeug)
Die obige Heatmap zeigt die Verwirrungsmatrix des besten Modells nach dem Tuning-Prozess. Erzeugt Richtig Negativ (TN) 76,64 %, Richtig Positiv (TP) 23,21 %, Falsch Negativ (FN) 0,01 %, Falsch Positiv (FP) 0,14 %, was bedeutet, dass das Modell eine hohe Genauigkeit bei der Vorhersage der Klasse aufweist.
ROC-AUC-Kurve
Die obige Grafik zeigt die ROC-AUC-Kurve mit einem nahezu perfekten Wert von 0,999998. Dies bedeutet, dass das Modell bei der Vorhersage jeder Klasse intestine funktioniert.
Funktionsbedeutung
Klasse 0: BEV (Batterieelektrisches Fahrzeug)
Klasse 1: PHEV (Plug-in-Hybrid-Elektrofahrzeug)
Das Diagramm der Merkmalswichtigkeit stellt die relative Bedeutung jedes Merkmals in einem Modell für maschinelles Lernen dar. Es bietet Erkenntnisse darüber, welche Funktionen den größten Einfluss auf die Vorhersageleistung des Modells haben. Eine höhere Wichtigkeitsbewertung weist auf einen stärkeren Einfluss auf die Vorhersagen des Modells hin. Diese Funktionen können wertvolle Einblicke in die zugrunde liegenden Muster oder Beziehungen in den Daten liefern.
Basierend auf der obigen Grafik sind wichtige Merkmale bekannt, wie z. B. „elektrische Reichweite“, „Modell“, „Eignung für Fahrzeuge mit sauberem alternativen Kraftstoff“, „Marke“ und andere.
Ergebnis
Basierend auf dem gesamten Prozess ergeben sich folgende Ergebnisse:
- Das beste erhaltene Modell ist Random Forest, das Genauigkeits- und ROC-AUC-Werte von 0,999617 bzw. 0,999998 liefert.
- Elektrofahrzeuge vom Typ BEV (Battery Electrical Car) haben mit 76,8 % den größten Anteil.
- King County hat mit 41,9 % für BEV und 10,6 % für PHEV die höchste Anzahl an Elektrofahrzeugen.
- Die Stadt Seattle hat mit 13,7 % für BEV und 3,9 % für PHEV die zweithöchste Anzahl an Elektrofahrzeugen.
- Der Bundesstaat Washington ist mit einem Gesamtanteil von 99,7 % (BEV und PHEV) der Bundesstaat mit den meisten Elektrofahrzeugen.
- Elektrofahrzeuge mit Modelljahr 2022 machen mit 18,3 % für BEV und 3,2 % für PHEV den größten Anteil aus.
- Elektrofahrzeuge von Tesla waren mit 45,7 % am zahlreichsten (BEV und PHEV).
- Elektrofahrzeuge erfüllen mit 46,4 % (BEV und PHEV) am ehesten die Zulassungsvoraussetzungen für Fahrzeuge mit sauberem Kraftstoff (geringer Schadstoffausstoß), gefolgt von Elektrofahrzeugen mit unbekanntem Zulassungsstatus mit 41 % (BEV und PHEV) und Elektrofahrzeugen mit nicht zulässigem Standing mit 41 % (BEV und PHEV). 12,6 % (BEV und PHEV).
- Elektrofahrzeuge mit Stromversorgern von Puget Sound Power waren mit 58,4 % am häufigsten (BEV und PHEV).