In dieser Serie zum maschinellen Lernen sind wir auf verschiedene Techniken des maschinellen Lernens gestoßen. In Teil 3haben wir gesehen, wie Entscheidungsbäume beim maschinellen Lernen verwendet werden können. Auf die Nachteile der ID-3-Algorithmen wurde hingewiesen. In diesem Artikel werden wir einige weitere Entscheidungsbaumalgorithmen durchgehen, um diese Nachteile zu beheben.
Ein Entscheidungsbaumalgorithmus dient dazu, die beste Variable für die Aufteilung des Datensatzes und den optimalen Aufteilungspunkt auszuwählen. Dem ID-3-Algorithmus gelang es, die beste Variable auszuwählen, eine optimale Aufteilung der Variablen battle jedoch nicht möglich. Wenn die Variable kontinuierliche Werte hat, besteht ein üblicher Ansatz darin, die Wertemenge in kleine Gruppen mit gleichen Intervallen zu unterteilen. Die Aufteilung der Variablen in diese großen Gruppen ist rechenintensiv. Ein weiteres Drawback beim maschinellen Lernen besteht darin, dass die uns zur Verfügung stehenden Daten möglicherweise nicht vollständig sind. Um all diese Probleme zu lösen, wurde eine erweiterte Kind von ID-3 eingeführt – der C4.5-Algorithmus.
In C4.5 wird die Aufteilungsvariable ähnlich wie beim ID-3-Algorithmus ausgewählt. In ID-3 haben wir die Variable mit der minimalen Entropie gewählt, da sie die geringste Verunreinigung aufweist. Sobald wir die Daten aufteilen, ist die Entropie kleiner als die Gesamtentropie vor der Aufteilung. Dieser Unterschied ist die Data, die wir an den Entscheidungsbaum weitergegeben haben. Dies wird als Informationsgewinn dieser Variablen bezeichnet.
Die Gesamtaufteilungsinformationen der Daten können mithilfe der Formel berechnet werden
In C4.5 wird eine Variable basierend auf dem Verstärkungsverhältnis ausgewählt, das heißt dem Verhältnis des Informationsgewinns der Variablen zur Aufteilungsinformation der Variablen. Als Aufteilungsattribut wird die Variable mit dem maximalen Verstärkungsverhältnis ausgewählt.
Nachdem wir nun die Aufteilungsvariable ausgewählt haben, besteht unsere nächste Aufgabe darin, die Variable zu teilen. Kategoriale Variablen können nach Kategorien aufgeteilt werden, aber wie teilt man kontinuierliche Variablen auf?
Betrachten Sie unser Reisebeispiel mit einer kleinen Modifikation. Statt ob eine Prüfung ansteht, wird in den Daten die Anzahl der verbleibenden Tage für die bevorstehende Prüfung angezeigt.
Suchen Sie nun alle unterschiedlichen Werte in der Variablen. Hier enthält die Variable die Werte 6, 7, 8 und 10. Wir können nun nach jedem dieser Werte aufteilen und das Verstärkungsverhältnis jeder Aufteilung ermitteln. Wählen Sie den Wert, der das maximale Verstärkungsverhältnis für die Aufteilung ergibt.
Der CART-Algorithmus ist eine weitere Technik zum Trainieren von Entscheidungsbäumen. Der Algorithmus verwendet den Gini-Index als Maß für die Verunreinigung. Der Gini-Index einer Variablen kann mit der Formel berechnet werden
Der CART-Algorithmus erstellt normalerweise einen Binärbaum. Die Werte der kategorialen Werte werden zur Aufteilung in zwei Gruppen unterteilt. Diese Aufteilung erfolgt auf Foundation des Gini-Index der Daten. Das Erstellen binärer Entscheidungsbäume erleichtert die Interpretation und verringert die Komplexität des Testens der Daten.
Durch die genaue Untersuchung aller Werte in einer Variablen kann CART die Ausreißer und Ungleichgewichte effizient identifizieren und sie in einen neuen Unterbaum aufteilen. Daher ist dieser Algorithmus nützlich beim Umgang mit falschen Daten.
Bisher haben wir verschiedene Techniken des maschinellen Lernens gesehen. Wie bereits erwähnt, sind die Vorhersagen beim maschinellen Lernen nicht zu 100 % genau. Um eine Unteranpassung zu verhindern, müssen wir sicherstellen, dass wir genügend Daten für das Coaching verwenden. Die Verwendung großer Datenmengen für das Coaching kann jedoch zu einer Überanpassung führen. Um dieses Drawback anzugehen, lassen Sie uns eine Technik entwickeln, die als Regularisierung bekannt ist. Durch die Regularisierung wird die Überanpassung von Trainingsdaten reduziert, indem dem Lernprozess kleine Einschränkungen hinzugefügt werden. Dadurch wird das Modell des maschinellen Lernens allgemeiner.
Bisher haben wir in dieser Serie einen Tropfen auf den heißen Stein des maschinellen Lernens gesehen. Es gibt noch viel mehr Techniken und Theorien zum maschinellen Lernen. In dieser Reihe wurden die grundlegenden Themen behandelt, die Sie in die Welt des maschinellen Lernens einführen. Folgen Sie mir, um weitere interessante Artikel im Bereich Künstliche Intelligenz zu lesen. Geben Sie Ihre Zweifel und Vorschläge in der Antwort an. Diese werden in den nächsten Teilen berücksichtigt. Fröhliches Lesen!!!