Aufrechterhaltung der Datenqualität in maschinellen Lernsystemen | von David Farrugia | Juni 2023

0
28


DATEN | MASCHINELLES LERNEN | Qualitätssicherung

Eine Empfehlung zum unsichtbaren Eckpfeiler des maschinellen Lernens

Foto von Battlecreek Kaffeeröster An Unsplash

In der schillernden Welt des maschinellen Lernens (ML) ist es ganz einfach, sich auf den Nervenkitzel der Entwicklung anspruchsvoller Algorithmen, fesselnder Visualisierungen und beeindruckender Vorhersagemodelle einzulassen.

Doch ähnlich wie die Haltbarkeit eines Gebäudes nicht nur von seiner sichtbaren Struktur, sondern auch von seinen verborgenen Fundamenten abhängt, hängt die Wirksamkeit maschineller Lernsysteme von einem oft übersehenen, aber völlig entscheidenden Aspekt ab: dem Datenqualität.

Stellen Sie sich Ihre ML-Trainings- und Inferenzpipelines wie die Reise eines Dampfzuges vor.

Es ist von entscheidender Bedeutung, die Funktionsfähigkeit des Zuges selbst – des ML-Programs – aufrechtzuerhalten, aber was ist, wenn die Gleise beeinträchtigt sind?

Wenn die Qualität der Daten, die Ihr System einspeisen, im Vorfeld nicht gewährleistet ist, kommt es einem Schienenschaden gleich – Ihr Zug ist dazu bestimmt, zu entgleisenfrüher oder später, insbesondere wenn man in großem Maßstab arbeitet.

Daher ist es von größter Bedeutung, die Datenqualität von Anfang an, direkt an der Quelle, zu überwachen.

So wie ein Zuginspektor die Gleise vor einer Fahrt untersucht, müssen wir unsere Daten am Ursprungsort genau unter die Lupe nehmen.

Dies kann durch ein Konzept erreicht werden, das als „Datenverträge‚.

Stellen Sie sich vor, Sie wären zu einem Potluck-Dinner eingeladen, bei dem jeder Gast ein Gericht mitbringt.

Ohne jegliche Koordination könnte am Ende ein Festmahl entstehen, das ausschließlich aus Desserts besteht!

Ebenso muss in der riesigen Datenlandschaft eine Vereinbarung (d. h. der Datenvertrag) zwischen Datenproduzenten und -konsumenten bestehen, um sicherzustellen, dass die produzierten Daten bestimmte Qualitätsstandards erfüllen.

Bei diesem Vertrag handelt es sich im Wesentlichen um eine Blaupause, die eine nicht erschöpfende Liste von Metadaten umfasst, wie zum Beispiel:

  1. Schemadefinition: Particulars zur Datenstruktur, wie Felder, Datentypen usw.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here