Daten, Merkmalsbewertung und Evaluierungsherkunft | von Jesse Lima | Juni 2023

0
27


Konzeptionelle Ebenen in Pipelines für maschinelles Lernen

Um noch einen Schritt weiter in die Fragen der realen Herkunft zu gehen, ist es ein guter Anfang, sich einige Terminologien zu eigen zu machen, um uns auf den Weg zu machen.

In Sugimura und Hartl (2018) wird eine modulare Taxonomie vorgeschlagen, um die Herausforderung reproduzierbarer Pipelines für maschinelles Lernen zu bewältigen. Den Autoren zufolge kann eine Pipeline modularisiert werden Daten, Merkmal, Bewertung, Und Auswertung Lagen. Die Modularisierung der Pipeline auf diese Weise erwies sich als natürliche Möglichkeit, das Drawback zu lösen. Wir werden in unseren Beiträgen denselben Ansatz verwenden und jede Ebene wie folgt definieren:

  • Datenschicht: Eine Datenschicht sollte Zugriff auf alle Datenquellen ermöglichen, um die Datenherkunft zu gewährleisten. Es muss die Herkunft aller Datentransformationen im Zusammenhang mit Datenexplorationsaktionen gewährleisten, die von Information Scientists durchgeführt werden.
  • Function-Layer: Obwohl es eine gewisse Ähnlichkeit mit der Datenexploration hat, ist diese Ebene für die Function-Generierung in a verantwortlich clear, wiederverwendbar, Und skalierbar Benehmen. Die Quellen jedes Options müssen eindeutig und klar definiert sein, und Implementierungs- und Transformationsdetails müssen über die Herkunft zugänglich sein.
  • Bewertungsebene: Die Bewertungsebene wandelt Options in Vorhersagen um. Es sollte mit mehreren Bibliotheken für maschinelles Lernen kompatibel sein und Workflows komplexerer Ansätze ermöglichen, beispielsweise eines Ensembles von Modellen.
  • Bewertungsschicht: Der letzte Schritt im Prozess der Sicherstellung der Modellreproduzierbarkeit betrifft die Bewertungsschicht. Diese Ebene kann die Äquivalenz zweier Modelle prüfen und die relative Leistung einer beliebigen Anzahl von Modellen bewerten. Es muss alle Modellleistungsmetriken zulassen, die das Drawback möglicherweise benötigt (AUC, RMSE, Protokollverlust). Schließlich kann es zur Überwachung von Produktionsmodellen verwendet werden, um zu überprüfen, wie genau die Vorhersagen zum Dwell-Verkehr mit den Trainingsvorhersagen übereinstimmen.

Vor diesem Hintergrund sind wir bereit, den Gesamtraum der auf dem aktuellen MLOPs-Markt verfügbaren Lösungen für maschinelles Lernen zu bewerten. Es wird das Thema unseres nächsten Beitrags sein.

Literaturverzeichnis:

Sugimura, R., et al. „Aufbau einer reproduzierbaren Pipeline für maschinelles Lernen.“ (2018)



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here