Maximierung der Modellleistung bei Vorhersagen außerhalb der Stichprobe.
Der Einsatz von maschinellem Lernen kann prekär sein. Herkömmliche Software program erfordert strenge Exams vor der Bereitstellung. Maschinelles Lernen bringt die gleichen Einschränkungen sowie die zusätzliche Belastung durch die Bewertung der stochastischen Natur des Programs mit sich.
Sind wir zuversichtlich, dass sich unsere Modellleistung im Laufe der Zeit nicht verschlechtert?
Gute MLOps berücksichtigen die inhärente Stochastizität, die durch Abtasten außerhalb des Trainingsbereichs erzeugt wird.
Hier sind einige Techniken, die wir verwenden, um ML-Drift zu überwachen und zu mindern.
Das gesamte maschinelle und statistische Lernen beruht stark auf mathematischen Annahmen, und meistens ist eine schlechte Modellleistung eine Folge der Verletzung dieser Annahmen.
Die Hauptannahme ist, dass die In-Pattern-Daten Xi gleichmäßig auf die Out-of-Pattern-Daten verteilt P(Xi) = P(Xj) & ferner die bedingte Verteilung der Antwortvariablen bei gegebenen Eingabedaten P(y|X) ist bei beiden Stichproben äquivalent P(yi|Xi) = P(yj|Xj).
Die Entwicklung realer Systeme erfordert oft die Verletzung dieser Annahmen.
- Out-of-Area-Vorhersage: Möglicherweise möchten wir Daten außerhalb der Trainingsdomäne transformieren. Angenommen, wir bauen ein Modell zur Vorhersage von Krebs. Die Anwendung des Modells in Krankenhäusern, die nicht im Datensatz enthalten sind, kann daher zu einer schlechten Leistung führen P(Xi) != P(Xj).
- Änderung der Daten im Laufe der Zeit: Die Verteilung der Daten kann sich im Laufe der Zeit auf nicht offensichtliche Weise ändern. Angenommen, Sie implementieren ein Modell, um das Ausgabeverhalten der Verbraucher vorherzusagen. Äußere Veränderungen wie die Umstellung auf Distant-Arbeit oder die Alterung der Verbraucherbasis könnten das Verbraucherverhalten verändern (Verschlechterung der Modellleistung im Laufe der Zeit).
Es ist unpraktisch, diese Artwork von Verstößen zu verhindern. Es ist daher zwingend erforderlich, diese Verstöße explizit in den maschinellen Lernprozess einzubeziehen. IE-Domänenanpassung und -generalisierung.
Datendrift
Es gibt mehrere Arten von Datendrift, breiter kategorisiert:
Konzeptdrift: Die Entscheidungsgrenze P(y|X) hat sich verändert. Auch bezeichnet als Klasse Drift oder Posteriore WahrscheinlichkeitsverschiebungIdea Drift ändert das Mapping ab X Zu j.
Datendrift: Auch bezeichnet als Kovariatenverschiebung, Datendrift bezieht sich auf den Fall, in dem sich die Entscheidungsgrenze nicht geändert hat, sondern auf die Wahrscheinlichkeitsverteilung der Eingabe P(X) oder p(y) hat.
Lösungen lassen sich grob in zwei Kategorien einteilen: Überwachung (Erkennung) befasst sich mit der Identifizierung eines Verstoßes & Gewichtung (Prävention) befasst sich mit der Aktualisierung der während des Trainings verwendeten Kostenfunktion oder Optimierungsmethode.
Gefahren der ML-Verschiebung
Gutes MLOps umfasst sowohl die Modellversionierung als auch die Leistungsüberwachung. Ein Zeitplan für Umschulung und lebenslanges Lernen sollte aus Reside-Suggestions von Modellen in der Produktion abgeleitet werden.
Hier sind Methoden zum Überwachen der Modellleistung.
Modelle für überwachtes Lernen
- Metriken: statistische Maße, Genauigkeit, Präzision, FPR, AUC usw.
- Überwachtes Lernen: „Ein Überblick über die Anpassung von Konzeptdriften”
- Sequenzielle Analyse (SPRT) zur Feinabstimmung von Alarmen bei Fehlalarmen.
- Statistische Prozesskontrolle (SPC) – die Änderungsrate.
- Überwachung von 2 Distributionen (ADWIN) — genauer mehr Overhead.
Unüberwachte Modelle
- PSI (Populationsstabilitätsindex).
- KL-Divergenz.
- Jensen-Shannon (JS).
- KS-Check.
Die Überwachung ist unkompliziert, wenn Ihre Infrastruktur angemessen eingerichtet ist.
Die Überwachung ist wichtig, um die Langlebigkeit eines Modells sicherzustellen, aber es gibt auch vorbeugende Maßnahmen, um die Wahrscheinlichkeit einer Extrapolation der Ergebnisse über den Trainingssatz hinaus zu verbessern. In erster Linie nach einem Verfahren ähnlich:
Angesichts der Eingabedaten X Lernen Sie eine niederdimensionale Mannigfaltigkeit Ochse) (Komprimieren der Daten, um den latenten Datenerzeugungsprozess zu extrahieren) und verwenden Sie die vielfältige Transformation, um entweder Merkmale zu entwickeln oder Eingaben zu modellieren y ~ f(ø(X)).
Wir neigen dazu, Segmente der Daten während des Trainings zu entfernen und die Empfindlichkeit von Modellpipelines gegenüber diesen injizierten Störungen zu bewerten.
Diese Formel unterstützt viele Einbettungs-/Modellvarianten. Ein gängiger Ansatz – den wir implementiert und rigoros getestet haben – ist das TCA++-Framework. Der allgemeine Pattern ist wie folgt:
- Leiten Sie ein einfaches Dimensionsreduktionsziel ab ∂(x) Funktion, die diese Roheingabe so komprimiert, dass die lokale und globale Struktur erhalten bleibt (Daten, die geclustert/entfernt in X ist gruppiert/entfernt in ∂(x)).
- Fügen Sie Bedingungen hinzu, um die Aufsicht zu berücksichtigen ∂(x,y).
- Fügen Sie Terme hinzu, um die Regularisierung zu berücksichtigen (normalerweise nur L1 oder L2).
- Verwenden Sie Lineare Algebra, um die endgültige Zielfunktion zu reduzieren – normalerweise durch Eigenwertzerlegung, nachdem Sie die Funktion in ihr ausgedrückt haben Lagrange kind.
TCA++ ist ein flexibles Framework, das all diese Varianten unterstützt und sich als nützlicher Ausgangspunkt erweist.
Vorausgesetzt P(Xi) != P(Xj) Unser Ziel ist es, eine Function-Map zu finden Ö so dass P(ø(Xi)) == P(ø(Xj)).
Beginnend in einer unbeaufsichtigten Umgebung, TKA kann verwendet werden, um eine latent eingebettete Transformation zu lernen Ö das ist wahrscheinlich domänenübergreifend abbildbar. TKA ist wie folgt erweiterbar:
- SSTCA: Halbüberwacht TKA enthält Etiketten.
- Multi-TCA: Erweitert TKA zur Domänenverallgemeinerung, die Regularisierung hinzufügt.
- Multi-SSTCA: Erweitert SSTCA zur Domänenverallgemeinerung, die Regularisierung hinzufügt.
Die Modellformulierung ist unten angegeben, hier ist die Zusammenfassung auf hoher Ebene:
- MMD bildet die Foundation der Kostenfunktion. Es stützt sich auf Ö.
- MMD kann in (rechnerisch handhabbarer) Matrixalgebra ausgedrückt werden. Dies ist die Lösung für Customary-TCA (Gleichung 4).
- Multi-TCA erweitert TCA zur Domänenverallgemeinerung, indem ein Regularisierungsterm hinzugefügt wird, um die Komplexität einzudämmen (Gleichung 5).
- MMD (sowohl in seiner ursprünglichen als auch in seiner regularisierten Kind) kann mit Eigenvektoren angenähert werden (Gleichung 6).
- W ist eine orthogonale Gewichtsmatrix, die verwendet wird, um die Daten in den reduzierten Raum zu transformieren. Da das Ziel – identisch mit PCA – darin besteht, die Varianz auf reduziertem Raum zu maximieren, W wird als angegeben m<
führende Eigenvektoren (Gleichung 6). - Semi-Supervised SSTCA fügt der Kostenfunktion einen Time period hinzu, um die Etikettenabhängigkeit einzubeziehen ø(yi, yj) (Gleichung 7).
- Multi-SSTCA fügt der Kostenfunktion einen Time period hinzu, um die Lokalität zu erhalten (Gleichungen 9 & 10).
Mathematische Formulierung
Auszug aus Thomas Grubingeret al.
Die TCA++-Komprimierungsalgorithmen zeigen Domänengeneralisierungstechniken, die effektiv nur konservative Modelle sind, die auf latenten Einbettungen beruhen, um die Wahrscheinlichkeit einer Vorhersage außerhalb der Stichprobe zu maximieren.
Ressourcen
Papiere:
Repos