Bevor Sie mit der Definition der Function-Skalierung beginnen. Schauen wir uns zunächst ein Beispiel an.
Wir erhalten zwei Merkmale: Alter und Gehalt (der Unterschied im Bereich beträgt etwa 10.000 Einheiten).
Während wir unser Modell trainieren, übergeben wir diese beiden Merkmale an unser Modell, um Hypothesen über die Gesundheit dieser Particular person zu erstellen.
Nachdem wir an solchen Datensätzen trainiert haben, bei denen die Werte verschiedener Merkmale in unterschiedlichen Bereichen liegen, wird unser Modell stark auf das Merkmal ausgerichtet sein, das einen hohen Wertebereich aufweist (in diesem Beispiel das Gehalt).
Options in einem Datensatz haben häufig unterschiedliche Maßstäbe, Einheiten oder Bereiche. Wenn die Options nicht skaliert sind, können diejenigen mit größeren Maßstäben den Lernprozess dominieren und zu Verzerrungen führen. Durch die Skalierung der Options stellen wir sicher, dass sie gleichermaßen zur Analyse beitragen und verhindern, dass ein bestimmtes Function einen unangemessenen Einfluss hat.
Funktionsskalierungauch Daten genannt Normalisierung oder Standardisierungist eine Technik, die beim maschinellen Lernen verwendet wird Datenvorverarbeitung verschiedene Merkmale eines zu bringen Datensatz auf einen ähnlichen Maßstab. Ziel ist es sicherzustellen, dass alle Funktionen einen Beitrag leisten gleichermaßen Sie unterstützen den Lernprozess und verhindern, dass ein bestimmtes Merkmal die Ergebnisse dominiert oder verzerrt.
Wie führen wir eine Function-Skalierung durch?
Für die Function-Skalierung werden zwei Methoden verwendet
- Normalisierung (Min-Max-Skalierung)
- Standardisierung (Z-Rating-Skalierung)
Die Normalisierung, auch Min-Max-Skalierung genannt, ist eine gängige Technik beim maschinellen Lernen, um die Werte von Options innerhalb eines bestimmten Bereichs zu normalisieren. Das Ziel der Normalisierung besteht darin, die Merkmale so zu transformieren, dass sie alle das haben gleichen Maßstabtypischerweise zwischen 0 und 1.
Hier sind X(max) und X(min) der maximale und minimale Wert eines Merkmals.
Nachdem wir diese Formel auf unsere Daten angewendet haben, sehen unsere Daten folgendermaßen aus:
Jetzt wissen wir, dass jede Funktion darin liegt gleichen Bereich und unsere Daten sind für die Schulung geeignet.
Die Normalisierung hilft auf verschiedene Weise:
Verbesserte Konvergenz: Normalisierte Daten können dazu beitragen, dass Algorithmen während des Trainings schneller konvergieren, indem sie verhindern, dass bestimmte Merkmale aufgrund ihres größeren Maßstabs den Lernprozess dominieren.
Ausgleichswirkung: Durch die Normalisierung wird sichergestellt, dass alle Merkmale unabhängig von ihrer ursprünglichen Skala gleichermaßen zum Lernprozess beitragen.
Vermeidung numerischer Instabilität: Durch die Normalisierung von Daten werden numerische Probleme vermieden, die auftreten können, wenn Options extrem große oder kleine Werte haben.
Dolmetscherfähigkeit: Normalisierte Daten ermöglichen eine einfachere Interpretation und einen einfacheren Vergleich der Merkmalsbedeutung.
Standardisierungauch bekannt als Z-Rating-Normalisierung oder Z-Rating-Skalierung ist eine gängige Technik zur Normalisierung von Daten beim maschinellen Lernen. Es transformiert die Daten so, dass es funktioniert Null Bedeutung Und Einheitsvarianz. Durch diesen Prozess folgen die Daten einer Standardnormalverteilung, bei der der Mittelwert 0 und die Standardabweichung 1 beträgt.
Beispiel:
aber auch hier tritt das gleiche Downside auf. Die Daten sind verzerrt und ergeben kein intestine trainiertes Modell. Deshalb werden wir die Daten standardisieren, um sie für das Coaching geeignet zu machen, indem wir Folgendes verwenden:
Mit dieser Formel konvertieren wir die Werte jeder Spalte (Merkmal) in die Kind, in der die Standardabweichung der Spalte gleich 1 und der Mittelwert 0 ist.
Wenn wir den Wert des Mittelwerts und der Standardabweichung für Spalte 1 berechnen.
Mittelwert = [(-1)+(-1)+1+1]/4 = 0
Std. Abweichung = 1
Anwendung der gleichen Technik zum Konvertieren jeder Spalte in die Standardform. Jetzt sind diese Daten für das Coaching unseres Modells geeignet.
Zum besseren Verständnis sehen Sie sich dieses Video an:
Nun stellt sich die Frage:
Welche Technik sollte wann angewendet werden?
Nun, es gibt keine feste Regel für die Auswahl der Function-Auswahltechnik für unsere Daten. Aber aus meiner Erfahrung mit dem Umgang mit Daten. Die Techniken wie: Lineare Regression, logistische RegressionAlle Algorithmen, in denen die Steigung anständig dient der Abstimmung des Modells, KNN and Okay-Mittel. Die Standardisierung bietet eine bessere Genauigkeit als die Normalisierung.
Wobei Techniken wie: Entscheidungsbäume, Zufallswaldund all das Absack- und Boosting-Techniken und das tiefes Lernen Techniken liefern mit der Normalisierung bessere Ergebnisse.
Hier drehte sich alles um die Normalisierung und Standardisierung.
Viel Spaß beim Lernen.
Aman Soni