Grundlegendes zur Aufteilung von Trainings-, Test- und Validierungsdatensätzen in einfachen Worten | von Rahul Chavan | Juni 2023

0
27


Units für Datensätze

Bei der Arbeit mit Datenwissenschaft und maschinellem Lernen ist es wichtig, ein klares Verständnis dafür zu haben, wie Sie Ihre Daten zu Trainings-, Take a look at- und Validierungszwecken in verschiedene Sätze aufteilen. Ich werde das Konzept der Datensatzaufteilung und die Bedeutung jedes Satzes erläutern und erläutern, wie sie zum Aufbau robuster und zuverlässiger Modelle für maschinelles Lernen beitragen.

Wenn Sie ein Modell für maschinelles Lernen trainieren, müssen Sie Ihre Daten in drei Sätze aufteilen: den Zugsatz, den Testsatz und den Validierungssatz. Der Zugsatz wird zum Trainieren des Modells verwendet, der Testsatz wird zum Bewerten des Modells verwendet und der Validierungssatz wird zum Optimieren der Hyperparameter des Modells verwendet.

Der Zweck besteht darin, unsere Daten in drei Teile aufzuteilen

Wir müssen unsere Daten in drei Sätze aufteilen, weil wir sicherstellen möchten, dass unser Modell nicht zu stark an die Trainingsdaten angepasst ist. Eine Überanpassung tritt auf, wenn das Modell die Trainingsdaten zu intestine lernt und nicht mehr in der Lage ist, auf neue Daten zu verallgemeinern. Der Testsatz hilft uns, die Leistung des Modells anhand neuer Daten zu bewerten, und der Validierungssatz hilft uns, die Hyperparameter des Modells so abzustimmen, dass es nicht zu stark an die Trainingsdaten anpasst.

Zugdatensatz:

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, verschiedene Obstsorten zu identifizieren. Der Zugdatensatz ähnelt der Trainingsklasse des Roboters. Es besteht aus Bildern von Früchten mit Etiketten, die uns verraten, um welche Artwork von Früchten es sich handelt. Der Roboter schaut sich diese Bilder an und lernt, Muster wie Type, Farbe und Textur jeder Frucht zu erkennen. Je mehr Beispiele es sieht, desto besser kann es verschiedene Früchte unterscheiden.

Testdatensatz:

Der Testdatensatz ist wie ein Take a look at der Fruchterkennungsfähigkeiten des Roboters. Es enthält neue Bilder von Früchten, die der Roboter noch nie zuvor gesehen hat. Anhand dieser Bilder sehen wir, wie intestine der Roboter die richtige Fruchtsorte erkennen kann. Es ist, als würde man prüfen, ob der Roboter das, was er im Coaching gelernt hat, anwenden kann, um neue Früchte richtig zu erkennen. Wir möchten sicherstellen, dass der Roboter Früchte, auf die er zuvor noch nicht gestoßen ist, genau identifizieren kann.

Validierungsdatensatz:

Der Validierungsdatensatz hilft uns, die Fruchterkennungsfähigkeiten des Roboters zu optimieren. Nachdem der Roboter sein Coaching abgeschlossen hat und verschiedene Obstsorten verstehen kann, müssen wir dies validieren. Wir zeigen dem Roboter weitere Bilder von Früchten und prüfen, ob er korrekte Identifizierungen vornimmt. Wenn der Roboter Schwierigkeiten hat oder Fehler macht, können wir Anpassungen vornehmen, um seine Leistung zu verbessern. Es ist, als würde man dem Roboter zusätzliche Übungseinheiten geben und kleine Optimierungen vornehmen, um sicherzustellen, dass er Früchte besser erkennen kann.

Zeit, die Daten in drei Richtungen aufzuteilen:

Wir machen eine Reihe von Bildern verschiedener Früchte und teilen sie in drei Gruppen ein. Die meisten Bilder (ca. 60–80 %) gehen in die Trainingsgruppe. Dann stellen wir eine kleinere Gruppe (ca. 10–20 %) zur Verfügung, um die Fähigkeiten des Roboters zur Fruchterkennung zu testen. Die übrigen Bilder bilden ebenfalls eine kleinere Gruppe (ca. 10–20 %), die zur Feinabstimmung der Fähigkeiten des Roboters verwendet wird. Die genaue Größe dieser Gruppen kann je nach konkretem Downside und der Anzahl der uns vorliegenden Bilder variieren. (60/20/20)

Verteilung von Datensätzen

Abschluss:

Die Aufteilung unserer Daten in drei separate Sätze ist ein entscheidender Schritt beim maschinellen Lernen. Dieser Ansatz stellt sicher, dass unser Modell nicht zu sehr auf die Trainingsdaten spezialisiert wird, sodass es bei unsichtbaren Daten eine gute Leistung erbringen kann. Durch die Aufteilung der Daten können wir ein zuverlässigeres und präziseres Modell erstellen, das effektiv verallgemeinern kann.

Schauen Sie sich auch meine anderen Beiträge an ❤



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here