Korrekter Umgang mit Ausreißern zur Verbesserung von Überanpassungsszenarien | von Kayenga Campos | Juni 2023

0
25


Credit: Tremau
Wilhelm von Ockham
Wilhelm von Ockham von Wikimedia

Wenn es zwei Modelle mit ähnlicher Leistung gibt, wählen Sie immer das einfachste.

Die ersten fünf Elemente aus Iris-Daten
Die Iris-Daten bestehen aus 150 Elementen, 50 nach Klasse.
(hyperlinks) Verteilungspunkte professional Blütenblatt | (Rechts) Verteilungspunkte professional Kelchblatt. Bild vom Autor

Wenn die Blütenblattlänge < 2,45 ist, dann Iris-setosa
Wenn Kelchblattbreite < 2,10, dann Iris-versicolor
Wenn Kelchblattbreite < 2,45 und Blütenblattlänge < 4,55, dann Iris-versicolor
Wenn Kelchblattbreite < 2,95 und Blütenblattbreite < 1,35, dann Iris-versicolor
Wenn Blütenblattlänge < 2,45 und Blütenblattlänge < 4,45, dann Iris-versicolor
Wenn Kelchblattlänge >= 5,85 und Blütenblattlänge < 4,75, dann Iris-versicolor
Wenn Kelchblattbreite < 2,55 und Blütenblattlänge < 4,95 und Blütenblattbreite < 1,55, dann
Iris versicolor
Wenn Blütenblattlänge >= 2,45 und Blütenblattlänge < 4,95 und Blütenblattbreite < 1,55, dann
Iris versicolor
Wenn Kelchblattlänge >= 6,55 und Blütenblattlänge < 5,05, dann Iris-versicolor
Wenn Kelchblattbreite < 2,75 und Blütenblattbreite < 1,65 und Kelchblattlänge < 6,05
dann Iris-versicolor
Wenn Kelchblattlänge >= 5,85 und Kelchblattlänge < 5,95 und Blütenblattlänge < 4,85
dann Iris-versicolor
Wenn die Blütenblattlänge >= 5,15 ist, dann Iris-virginica
Wenn die Blütenblattbreite >= 1,85 ist, dann Iris-virginica
Wenn Blütenblattbreite >= 1,75 und Kelchblattbreite < 3,05, dann Iris-virginica
Wenn Blütenblattlänge >= 4,95 und Blütenblattbreite < 1,55, dann Iris-virginica

Wenn die Blütenblattlänge >= 5,15 ist, dann Iris-virginica
Wenn die Blütenblattbreite >= 1,85 ist, dann Iris-virginica
Wenn Blütenblattbreite >= 1,75 und Kelchblattbreite < 3,05, dann Iris-virginica
Wenn Blütenblattlänge >= 4,95 und Blütenblattbreite < 1,55, dann Iris-virginica

Gaußsche Verteilung
Gaußsche Verteilung von Wikimedia
T-Pupil vs. Normalverteilung von TJ Kyner

Der Ansatz zur Lösung dieses Issues liegt in der statistischen Behandlung von Ausreißern. Ausreißer sind Werte außerhalb der Verteilung unserer Daten. Der Diagrammtyp, der sie am besten beschreibt, sind Boxplots. Hier finden Sie eine kurze Beschreibung, wie sie zu interpretieren sind.

(hyperlinks) Boxplot des Irisdatensatzes | (Rechts) Boxplot-Beschreibung. Bild vom Autor
Boxplot mit reduzierten Ausreißern. Bild vom Autor



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here