Beim maschinellen Lernen bezieht sich ein „Splitter“ auf ein Instrument oder eine Technik, mit der ein Datensatz zum Trainieren und Testen eines maschinellen Lernmodells in separate Teilmengen aufgeteilt wird.
Das Aufteilen eines Datensatzes ist eine gängige Praxis beim maschinellen Lernen, um eine Überanpassung des Modells an die Trainingsdaten zu vermeiden und die Generalisierungsleistung des Modells für unsichtbare Daten zu bewerten. Typischerweise wird eine zufällige Aufteilung mit einem festen Verhältnis (z. B. 80 % für das Coaching und 20 % für das Testen) oder einer vordefinierten Anzahl von Faltungen (ok) für die Kreuzvalidierung vorgenommen.
In diesem Artikel untersuchen wir den Unterschied zwischen der Depart-out- und der Kfold-Kreuzvalidierung beim maschinellen Lernen.
Beim maschinellen Lernen bezieht sich „Depart-out“ auf eine Methode der Modellbewertung, bei der ein Teil der verfügbaren Daten vom Trainingsprozess beiseite gelegt oder „weggelassen“ und für das Testen der Leistung des Modells reserviert wird.
Diese Methode wird häufig verwendet, um abzuschätzen, wie intestine sich ein Modell auf neue, unsichtbare Daten verallgemeinern lässt. Die Trainingsdaten werden verwendet, um das Modell zu trainieren, und die verbleibenden Daten werden verwendet, um die Leistung des Modells anhand von Daten zu bewerten, die es zuvor nicht gesehen hat. Dies kann dazu beitragen, eine Überanpassung zu verhindern, die auftritt, wenn ein Modell zu eng an die Trainingsdaten angepasst wird und bei neuen Daten eine schlechte Leistung erbringt.
Die „Depart-out“-Methode kann auf verschiedene Arten implementiert werden, z. B. durch Aufteilen der Daten in Trainings- und Testsätze, Verwendung von Kreuzvalidierungstechniken oder Verwendung eines Holdout-Satzes. Die Wahl der Methode hängt von der Größe und Artwork des Datensatzes sowie von den spezifischen Anforderungen des jeweiligen maschinellen Lernproblems ab.
Beim maschinellen Lernen ist die „k-fache Kreuzvalidierung“ eine Technik, die verwendet wird, um die Leistung eines maschinellen Lernmodells für einen Datensatz zu bewerten.
Bei der Ok-fachen Kreuzvalidierung wird der Datensatz in ok gleichgroße Partitionen oder „Falte“ unterteilt. Das Modell wird k-mal trainiert, wobei jede Faltung einmal als Testdaten dient und die verbleibenden k-1 Faltungen als Trainingsdaten verwendet werden. Die Leistungsmetriken, wie z. B. Genauigkeit oder Fehler, werden dann über die k-Iterationen gemittelt, um eine genauere Schätzung der Leistung des Modells bereitzustellen.
Die Ok-fache Kreuzvalidierung ist eine beliebte Technik, da sie eine zuverlässigere Schätzung der Leistung des Modells ermöglicht, indem alle verfügbaren Daten sowohl für das Coaching als auch für das Testen verwendet werden. Es hilft auch, eine Überanpassung zu verhindern, da das Modell bei jeder Faltung mit Daten getestet wird, die es zuvor noch nicht gesehen hat.
Typischerweise reichen die Werte von ok von 5 bis 10, wobei 10 der am häufigsten verwendete Wert ist. Die Wahl von ok hängt jedoch von der Größe und Artwork des Datensatzes sowie von den spezifischen Anforderungen des vorliegenden maschinellen Lernproblems ab.
Sowohl „Depart-out“ als auch „k-fache Kreuzvalidierung“ sind Techniken, die beim maschinellen Lernen verwendet werden, um die Leistung eines Modells für einen Datensatz zu bewerten. Es gibt jedoch einige wesentliche Unterschiede zwischen den beiden:
- Methodik: Bei der Auslassungstechnik wird der Datensatz in zwei Teilmengen aufgeteilt: eine Trainingsmenge und eine Testmenge. Das Modell wird auf dem Trainingsset trainiert und auf dem Testset evaluiert. Im Gegensatz dazu beinhaltet die k-fache Kreuzvalidierung die Aufteilung des Datensatzes in ok gleichgroße Faltungen. Das Modell wird k-mal trainiert, wobei jede Faltung einmal als Testdaten dient und die verbleibenden k-1 Faltungen als Trainingsdaten verwendet werden.
- Probengröße: Die Depart-out-Technik verwendet nur einen Testsatz und einen Trainingssatz, während die k-fache Kreuzvalidierung ok Testsätze und ok Trainingssätze verwendet. Dies bedeutet, dass die k-fache Kreuzvalidierung eine zuverlässigere Schätzung der Leistung des Modells liefert, da mehr Daten zum Testen und Trainieren verwendet werden.
- Bias-Varianz-Kompromiss: Die Auslassungstechnik kann eine höhere Varianz in ihrer Leistungsschätzung aufweisen, da der Testsatz kleiner ist und daher möglicherweise nicht für den gesamten Datensatz repräsentativ ist. Andererseits bietet die k-fache Kreuzvalidierung eine genauere Schätzung der Leistung des Modells, da mehr Daten sowohl für Exams als auch für das Coaching verwendet werden.
- Rechenkomplexität: Die k-fache Kreuzvalidierung kann rechenintensiver sein als die Auslassungstechnik, da das Modell k-mal trainiert und ausgewertet werden muss.
Zusammenfassend lässt sich sagen, dass die Depart-out-Technik einfacher und rechnerisch weniger aufwendig ist, aber aufgrund des kleineren Testsatzes möglicherweise eine weniger zuverlässige Schätzung der Modellleistung liefert. Im Gegensatz dazu ist die k-fache Kreuzvalidierung zuverlässiger, erfordert jedoch mehr Rechenressourcen. Die Wahl der zu verwendenden Technik hängt von den spezifischen Anforderungen des jeweiligen maschinellen Lernproblems ab.