Steigern Sie Ihre Feinabstimmungsleistung mit TPGM | von Denny Loevlie | Juni 2023

0
24


Enthüllung einer Optimierungstechnik ohne die Notwendigkeit zusätzlicher Hyperparameter!

Bild mehrerer Kugeln unterschiedlicher Größe.
Bild vom Autor erstellt

Zuletzt CVPR 2023 Bei der Konferenz in Vancouver hatte ich das Privileg, die neuesten Forschungsergebnisse auf diesem Gebiet kennenzulernen Transferlernen. Transferlernen ist auf mehrere Bereiche anwendbar, z Pc Imaginative and prescient, Verarbeitung natürlicher Sprache und molekulare Modellierung. Eines der herausragenden Papiere, auf die ich gestoßen bin, zeichnete sich durch seinen innovativen Ansatz zur Feinabstimmung und sein Potenzial zur Überwindung bestehender Einschränkungen aus.

In den letzten Jahren hat die Feinabstimmung großer Modelle für eine bestimmte Aufgabe aufgrund der damit erreichbaren hohen Genauigkeit an Popularität gewonnen weniger Coaching und weniger Daten. Es hat sich gezeigt, dass die ersten Schichten des Netzwerks tendenziell allgemeinere Informationen lernen und die letzten Schichten eher „aufgabenspezifisch“ sind. Daher möchten wir diese allgemeinen Informationen beibehalten, während wir uns auf unsere eigenen Aufgaben konzentrieren.

Bild vom Autor erstellt

Basierend auf diesem Wissen wurden Methoden vorgeschlagen. Beispielsweise wäre es sinnvoll, für jede Schicht eine andere Lernrate zu wählen (kleinere Lernraten für die ersten Schichten und größere für die letzten Schichten). Der Nachteil dabei ist, dass dem Downside mehrere neue Hyperparameter hinzugefügt werden und es daher nicht möglich ist, größere Modelle auf umfangreichen Datensätzen zu trainieren. Dies führt dazu, dass man sich auf manuelle Heuristiken und zeitaufwändige Hyperparametersuchen verlässt, um optimale Lernraten zu finden.

In der Zeitung „Trainierbare projizierte Gradientenmethode für robuste Feinabstimmung,„Die Autoren gehen die oben erläuterten Probleme durch eine spannende Lösung namens an Trainierbare projizierte Gradientenmethode (TPGM) [1]. Durch die Formulierung der Feinabstimmung als Zweistufiges eingeschränktes OptimierungsproblemTPGM automatisiert den Prozess des Lernens feinkörniger Einschränkungen für jede Ebene.

TPGM führt eine Reihe von Projektionsradien ein, die Abstandsbeschränkungen zwischen dem fein abgestimmten Modell und dem vorab trainierten Modell darstellen, und erzwingt diese mithilfe von Gewichtsprojektionen. Was TPGM auszeichnet, ist seine Fähigkeit, diese Projektionsradien durch einen neuartigen Finish-to-Finish-Optimierungsansatz auf zwei Ebenen zu „lernen“, wodurch die Notwendigkeit einer manuellen Suche oder langsamer, nicht auf Ableitungen basierender Optimierungstechniken (z. B. Rastersuchen) entfällt. . Diese Radien werden basierend auf optimiert Validierungsdatensatz, Daher ist es wichtig, sicherzustellen, dass die restlichen Parameter korrekt sind gefroren bei der Durchführung dieses Teils der Optimierung, um Datenlecks zu vermeiden.

Diagramm, das die Idee hinter TPGM zeigt.  Es zeigt die unterschiedlichen Verbindungen zwischen den vorab trainierten Gewichtswerten und den fein abgestimmten Gewichtswerten sowie die in der Arbeit vorgeschlagenen Einschränkungen für den Abstand zwischen beiden.
Illustration von Trainierbare projizierte Gradientenmethode [1]

Normalerweise kann der Verlust wie folgt beschrieben werden:

Optimierungsprobleme auf zwei Ebenen, die typischerweise zur Optimierung von Hyperparametern verwendet werden [1]

Dies stellt die traditionelle Methode zur Optimierung von Hyperparametern beim maschinellen Lernen dar. In diesem Fall besteht das Ziel darin, die Verlustfunktion in einem Validierungssatz zu minimieren, wobei:

  • (x, y) – stellt ein Paar Eingabedaten dar
  • L(·) – stellt die Aufgabenverlustfunktion dar
  • θt – stellt die trainierbaren Modellgewichte dar
  • λ – repräsentiert die Hyperparameter, wie zum Beispiel die Lernrate
  • Dval und Dtr – repräsentieren die Validierungs- bzw. Trainingsdatensätze

Der traditionelle Prozess kann als zweistufiges Optimierungsproblem betrachtet werden, da er zwei Schritte umfasst. Zuerst passen wir die Hyperparameter λ an, um den Fehler im Validierungssatz zu reduzieren, und dann optimieren wir in diesem angepassten Kontext die Modellparameter θt, um den Fehler im Trainingssatz zu minimieren.

Die in Tian et al. vorgestellte Verlustfunktion. [1]erweitert diese Formulierung zur Feinabstimmung eines vorab trainierten Modells durch die Einführung einer zusätzlichen Einschränkung. Diese neue Formulierung minimiert nicht nur die Verlustfunktion wie zuvor, sondern stellt auch sicher, dass der Abstand zwischen den fein abgestimmten Modellparametern (θt) und den vorab trainierten Modellparametern (θ0) einen vordefinierten Grenzwert γ nicht überschreitet.

Eingeschränktes zweistufiges Optimierungsproblem, vorgeschlagen von Tian et al. [1]

Zu den zusätzlichen Parametern in dieser Verlustfunktion gehören:

  • γ – ein Skalar, der den maximal zulässigen Abstand zwischen dem vorab trainierten Modell und dem feinabgestimmten Modell darstellt
  • θ0 – stellt die Gewichte des vorab trainierten Modells dar
  • θt-θ0 – stellt die Differenz zwischen den Gewichten des fein abgestimmten Modells und des vorab trainierten Modells dar und misst effektiv den „Abstand“ zwischen ihnen

Das Hinzufügen der Einschränkung ||θt − θ0||* ≤ γ zielt darauf ab, die Verallgemeinerung und Robustheit des fein abgestimmten Modells aufrechtzuerhalten, indem sichergestellt wird, dass es nicht zu stark vom vorab trainierten Modell abweicht (das Ausmaß der zulässigen Abweichung wird durch die Leistung des Validierungsdatensatzes bestimmt). Dies bildet eine Doppelebene eingeschränkt Minimierungsproblem.

Die Experimente der Autoren zeigen, dass TPGM die Vanilla-Feinabstimmungsmethoden hinsichtlich der Robustheit gegenüber Out-of-Distribution-Daten (OOD) übertrifft und gleichzeitig die Wettbewerbsleistung bei In-Distribution-Daten (ID) aufrechterhält. Wenn TPGM beispielsweise auf Datensätze wie DomainNetReal und ImageNet angewendet wird, zeigt es erhebliche relative Verbesserungen der OOD-Leistung.

Um tiefer zu gehen, können die einzigartigen Aspekte von TPGM und seine Auswirkungen anhand der folgenden Schlüsselpunkte besser verstanden werden:

  • TPGM präsentiert eine transformative Lösung zur Feinabstimmung des Transferlernens.
  • TPGM formuliert die Feinabstimmung als ein zweistufiges Optimierungsproblem mit Einschränkungen, das dabei hilft, das Lernen feinkörniger Einschränkungen für jede Ebene zu automatisieren.
  • TPGM macht aufgabenspezifische Heuristiken und zeitaufwändige Hyperparametersuchen überflüssig.
  • Eine wichtige Erkenntnis ist, dass verschiedene Schichten unterschiedliche Grade der Regularisierung erfordern. Die Ergebnisse zeigen, dass die unteren Schichten des neuronalen Netzwerks stärker eingeschränkt sind, was auf ihre größere Nähe zum idealen Modell hinweist. Dies steht im Einklang mit dem allgemeinen Verständnis, dass Untere Schichten neigen dazu, allgemeinere Funktionen zu lernen.

Als jemand, der im Bereich Deep Studying arbeitet und bereits über Forschungserfahrung im Bereich Optimierung verfügt, halte ich dieses Papier für äußerst wirkungsvoll. Die vorgeschlagene Methode, TPGM, stellt einen bedeutenden Fortschritt in der Welt des Transferlernens dar und ebnet möglicherweise den Weg für mehr effiziente, robuste und interpretierbare Modelle in der Zukunft.

[1] Tian, ​​J., Dai, X., Ma, CY., He, Z., Liu, YC. & Kira, Z. (2023). Trainierbare projizierte Gradientenmethode für robuste Feinabstimmung. In Proceedings of the Convention on Pc Imaginative and prescient and Sample Recognition (S. TBD). doi:10.48550/arXiv.2303.10720

Ich bin ein aufstrebender Deep-Studying-Forscher und arbeite derzeit als Pc-Imaginative and prescient-Ingenieur bei KEF Robotik In Pittsburgh! Treten Sie mit mir in Kontakt und kontaktieren Sie mich, um über alles, was mit ML zu tun hat, zu chatten!



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here