Domänenanpassung und -generalisierung | von Zach Wolpe | April 2023

0
37


Maximierung der Modellleistung bei Vorhersagen außerhalb der Stichprobe.

Effiziente Einbettungen lernen, um Out-of-Pattern zu verallgemeinern.
  1. Out-of-Area-Vorhersage: Möglicherweise möchten wir Daten außerhalb der Trainingsdomäne transformieren. Angenommen, wir bauen ein Modell zur Vorhersage von Krebs. Die Anwendung des Modells in Krankenhäusern, die nicht im Datensatz enthalten sind, kann daher zu einer schlechten Leistung führen P(Xi) != P(Xj).
  2. Änderung der Daten im Laufe der Zeit: Die Verteilung der Daten kann sich im Laufe der Zeit auf nicht offensichtliche Weise ändern. Angenommen, Sie implementieren ein Modell, um das Ausgabeverhalten der Verbraucher vorherzusagen. Äußere Veränderungen wie die Umstellung auf Distant-Arbeit oder die Alterung der Verbraucherbasis könnten das Verbraucherverhalten verändern (Verschlechterung der Modellleistung im Laufe der Zeit).

Datendrift

Konzeptdrift. Hyperlinks) Originalprobe. Middle) Konzeptdrift: eine Verschiebung im Datengenerierungsprozess P(y|X). Rechts) Der grüne Bereich stellt eine Fehlklassifizierung dar, da die Konzeptdrift nicht berücksichtigt wurde.

Gefahren der ML-Verschiebung

Eine Demonstration des Leistungsabfalls aufgrund von Kovariatenverschiebung und/oder Datendrift. Aufbau: Angenommen, wir passen ein B-Splines-Modell an (Rechts) um die Beziehung in einigen Daten zu erfassen. Der (unbekannte) datenerzeugende Prozess (hyperlinks) vom Modell ausreichend erfasst wird.
Im Laufe der Zeit zeichnet sich ein großer Pattern im Datengenerierungsprozess ab. (hyperlinks). Bei einer Umgestaltung erfasst das neue Modell die Daten angemessen (Middle). Der ursprüngliche Spline kann Out-of-Pattern nicht vorhersagen (Rechts).
  • Metriken: statistische Maße, Genauigkeit, Präzision, FPR, AUC usw.
  • Überwachtes Lernen: „Ein Überblick über die Anpassung von Konzeptdriften
  • Sequenzielle Analyse (SPRT) zur Feinabstimmung von Alarmen bei Fehlalarmen.
  • Statistische Prozesskontrolle (SPC) – die Änderungsrate.
  • Überwachung von 2 Distributionen (ADWIN) — genauer mehr Overhead.
  • PSI (Populationsstabilitätsindex).
  • KL-Divergenz.
  • Jensen-Shannon (JS).
  • KS-Check.
Annahme: Die Trainingsdaten stammen aus denselben Quellen wie die Ziel-(Check-)Daten.
  1. Leiten Sie ein einfaches Dimensionsreduktionsziel ab ∂(x) Funktion, die diese Roheingabe so komprimiert, dass die lokale und globale Struktur erhalten bleibt (Daten, die geclustert/entfernt in X ist gruppiert/entfernt in ∂(x)).
  2. Fügen Sie Bedingungen hinzu, um die Aufsicht zu berücksichtigen ∂(x,y).
  3. Fügen Sie Terme hinzu, um die Regularisierung zu berücksichtigen (normalerweise nur L1 oder L2).
  4. Verwenden Sie Lineare Algebra, um die endgültige Zielfunktion zu reduzieren – normalerweise durch Eigenwertzerlegung, nachdem Sie die Funktion in ihr ausgedrückt haben Lagrange kind.
  • SSTCA: Halbüberwacht TKA enthält Etiketten.
  • Multi-TCA: Erweitert TKA zur Domänenverallgemeinerung, die Regularisierung hinzufügt.
  • Multi-SSTCA: Erweitert SSTCA zur Domänenverallgemeinerung, die Regularisierung hinzufügt.
  1. MMD bildet die Foundation der Kostenfunktion. Es stützt sich auf Ö.
  2. MMD kann in (rechnerisch handhabbarer) Matrixalgebra ausgedrückt werden. Dies ist die Lösung für Customary-TCA (Gleichung 4).
  3. Multi-TCA erweitert TCA zur Domänenverallgemeinerung, indem ein Regularisierungsterm hinzugefügt wird, um die Komplexität einzudämmen (Gleichung 5).
  4. MMD (sowohl in seiner ursprünglichen als auch in seiner regularisierten Kind) kann mit Eigenvektoren angenähert werden (Gleichung 6).
  5. W ist eine orthogonale Gewichtsmatrix, die verwendet wird, um die Daten in den reduzierten Raum zu transformieren. Da das Ziel – identisch mit PCA – darin besteht, die Varianz auf reduziertem Raum zu maximieren, W wird als angegeben m< führende Eigenvektoren (Gleichung 6).
  6. Semi-Supervised SSTCA fügt der Kostenfunktion einen Time period hinzu, um die Etikettenabhängigkeit einzubeziehen ø(yi, yj) (Gleichung 7).
  7. Multi-SSTCA fügt der Kostenfunktion einen Time period hinzu, um die Lokalität zu erhalten (Gleichungen 9 & 10).

Mathematische Formulierung

Ressourcen



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here