Transformers – Die Grenze der ML-Generalisierung | von Ryan Partridge – Simplifying Deep Learning-Themen | Juni 2023

0
29


In den letzten Jahren hat maschinelles Lernen (ML) begonnen, von verschiedenen Modellen in mehreren Disziplinenbereichen (wie Laptop Imaginative and prescient, Spracherkennung und Verarbeitung natürlicher Sprache (NLP)) zu einem einzigen Format überzugehen – der Sprache (Centre for Humane Expertise). , 2023). Die Architektur, die den Weg ebnet, ist der Transformer, ein elegantes Deep Studying (DL)-Modell, das erstmals in der Arbeit vorgestellt wurde „Aufmerksamkeit ist alles, was Sie brauchen“ von Vaswani et al. (2017). Dieser Artikel dient als Roadmap in einer Reihe von Beiträgen, die sich mit den Komponenten des Transformers befassen, um zu verstehen, wie sie zusammenarbeiten, um ein tiefes Sprachverständnis und generative Fähigkeiten zu ermöglichen.

Zunächst erforschen wir alte NLP-Modelle. Als Nächstes entwickeln wir ein allgemeines Verständnis darüber, was Transformatoren sind, und besprechen ihre Architektur. Abschließend bieten wir einen allgemeinen Überblick über seine Komponenten mit Hinweisen zu einzelnen Artikeln für weitere Informationen.

Vor der Entwicklung der Transformers waren Recurrent Neural Networks (RNNs) und Lengthy Brief Time period-Reminiscence (LSTMs) die besten Architekturen zur Lösung von Sequenzmodellierungs- und Transduktionsproblemen. Diese Modelle akzeptieren eine Folge sequentieller Daten, die einer bestimmten Reihenfolge folgen (z. B. Textual content oder Zeitreihendaten), und verwenden dabei eine Artwork Wiederholung in Type von Zellen (Operationsblöcken). Die Leistungsfähigkeit von RNN beruht auf ihrer Fähigkeit, eine kleine Menge an Informationen aus ihren Eingaben zu speichern, die dann mit dem nächsten Satz von Eingaben wieder in das Netzwerk zurückgeführt werden und so ein Ingredient des Kurzzeitgedächtnisses bereitstellen.

Abbildung 1.1. Ein ausgerolltes RNN (Olah, 2015).

Leider werden RNNs durch explodierende und verschwindende Gradienten bei der Verwendung langer Datensequenzen beeinflusst, was dazu führt, dass die Netzwerkgewichte unglaublich groß oder klein werden, das Modell am Lernen hindert und sein Verhalten destabilisiert.

LSTMs erweitern die RNN-Architektur und mildern Defizite, indem sie einen erweiterten Speicher ermöglichen. Doch selbst mit ihren fortgeschritteneren Fähigkeiten sind sie aufgrund langer Gradientenpfade schwer zu trainieren und unzuverlässig bei der Verwendung von Switch Studying, einem in Convolutional Neural Networks (CNNs) übernommenen Prozess, der ein vorab trainiertes Modell verwendet und eine Feinabstimmung zur Spezialisierung ermöglicht auf einen kleinen Datensatz. Darüber hinaus akzeptieren LSTMs und RNNs Eingaben einzeln, was eine Voraussetzung für ein effektives Verständnis des Kontexts der Eingabesequenz ist und die Trainingszeit drastisch verlängert (Seattle Utilized Deep Studying, 2019). Es warfare klar, dass etwas Neues nötig warfare.

Weitere Informationen zu RNNs und LSTMs finden Sie in der visuellen und intuitiven Model Blogeintrag von Christopher Olah.

2017 stellten Vaswani und sein Group die Transformer-Architektur vor. Ursprünglich warfare es als Ersatz für LSTMs und RNNs gedacht und speziell darauf ausgelegt, die Bewältigung von Sequenzmodellierungs- und Transduktionsproblemen zu verbessern. Allerdings hat die Forschung der letzten Jahre gezeigt, dass sie für die Lösung von Aufgaben über mehrere Disziplinen hinweg von Vorteil sind (Hu et al., 2023; Dosovitskiy et al., 2021; Verma & Chafe, 2021). Wir heben die Transformatorarchitektur in Abbildung 2.1 hervor.

Abbildung 2.1. Die Transformer-Modellarchitektur (Vaswani et al., 2017)

Jetzt weiß ich, was Sie denken: „Wow, das sieht kompliziert aus!“ Vereinfachen wir es additionally etwas. Die Architektur besteht aus zwei Blöcken: einem Encoder und einem Decoder (hyperlinks bzw. rechts). Wenn Sie genau hinschauen, sind die Blöcke nahezu identisch, mit dem Zusatz eines zusätzlichen mehrköpfigen Aufmerksamkeitsmoduls im Decoder, das maskiert ist.

Auf einer hohen Ebene akzeptiert der Encoder gleichzeitig eine Folge codierter Token, die an einen Aufmerksamkeitsmechanismus weitergeleitet werden. Der Mechanismus erzeugt einen neuen Satz von Einbettungen, die Kontextinformationen bezüglich der Beziehung zwischen den einzelnen Elementen in der Sequenz erfasst haben. Wir kombinieren diese Einbettung mit einer Restverbindung (der anfänglichen Eingabe, die an den Mechanismus übergeben wurde), normalisieren sie und leiten sie durch ein Place-Clever Feed-Ahead Community (PFN). Anschließend führen wir sie mit einer anderen Restverbindung (im Zusammenhang mit dem PFN) zusammen und geben eine Folge versteckter Darstellungen zurück, die gelernte Informationen über die gesamte Eingabesequenz speichern.

Der Decoder führt ähnliche Interaktionen durch, verwendet jedoch zwei Aufmerksamkeitsmechanismen: einen zum Ignorieren zukünftiger (maskierter) Token in seiner jeweiligen Eingabe und den zweiten zum Erlernen der Beziehung zwischen seinen maskierten Einbettungen und der Ausgabe des Encoders. Auch hier werden Restverbindungen zwischen den Aufmerksamkeitsmodulen verwendet und die Informationen über ein PFN weitergeleitet. Nachdem wir die PFN-Ausgabe mit der endgültigen Restverbindung zusammengeführt haben, erstellen wir eine Reihe von Ausgabewahrscheinlichkeiten zur Vorhersage der Eingabe des Encoders im Format der Eingabe des Decoders. Zum Beispiel eine Englisch-Deutsch-Übersetzungsaufgabe.

Warum es wichtig ist

Normalerweise fügen neue Architekturen einer bestehenden Architektur nur ein oder zwei Ergänzungen/Änderungen hinzu. Vaswani et al. (2017) ging darüber hinaus, indem sie ein robustes Modell bereitstellte, das die alte Architektur durch eine völlig neue ersetzte und eine neue Methode zur Datenübergabe an ML-Modelle schuf.

Um einen Eindruck davon zu bekommen, wie revolutionär ihre Arbeit ist, schauen wir uns die kritischen Aspekte der Architektur an:

  • Sie machten wiederkehrende Komponenten überflüssig (erforderlich für den Speicher in RNNs und LSTMs) und ersetzten sie durch den Aufmerksamkeitsmechanismus.
  • Sie haben den Aufmerksamkeitsmechanismus so einfach wie möglich gestaltet und dabei grundlegende Konzepte neuronaler Netze und grundlegende Matrixoperationen genutzt.
  • Sie wandelten die Eingabedaten in Einbettungen um und fügten Positionskodierung für schnellere Berechnungen hinzu.
  • Verwendete Restverbindungen zwischen Modulen (Komponentenblöcken), um die Probleme verschwindender und explodierender Gradienten zu beseitigen.
  • Normalisierungsebenen für zusätzliche Gradientenstabilität und kürzere Trainingszeit hinzugefügt.
  • Formulierte den Aufmerksamkeitsmechanismus in Köpfen, sodass mehrere davon parallelisiert werden konnten, um die Trainingszeit weiter zu verkürzen.
  • Bietet einen großartigen Benchmark für Hyperparameter, der es ermöglicht, sofort nach dem Auspacken zu funktionieren, ohne dass viel Feinabstimmung erforderlich ist.

Aber das ist noch nicht alles! Die Architektur ermöglicht eine Anwendbarkeit für Transferlernen, die es ursprünglich für NLP-Probleme nie gab (oder zumindest nicht effektiv). Darüber hinaus können die Encoder- und Decoderblöcke voneinander entkoppelt werden, um unterschiedliche Aufgaben zu lösen, ohne die Kernfunktionalität zu verändern. Beispielsweise verfügen ChatGPT und BERT (Radford et al., 2018; Devlin et al., 2019), zwei beliebte Architekturen, nur über Decoder- bzw. Encoder-Schichten. Es ist absolut überwältigend, dass eine Architektur über so viele Möglichkeiten verfügt!

Ich kann mir vorstellen, dass Sie jetzt denken: „Ryan, das ist cool und so, aber wie funktioniert es und wie setze ich es um?“„Zuerst müssen wir verstehen, was jede Komponente ist und wie sie funktioniert.“ Schauen wir uns das im nächsten Abschnitt an.

Um diesen Artikel kurz zu halten und einen besseren Überblick über die Komponenten der Architektur zu geben (in Bezug auf Tiefe und Praxis), haben wir sie in separate Beiträge aufgeteilt. Wählen Sie einen der folgenden Hyperlinks aus, um Informationen zu einer entsprechenden Komponente zu erhalten.

  1. Einbettungen und Positionskodierung – ein detaillierter Blick darauf, wie Einbettungen als Vorbereitung für Transformer-Architekturen erstellt und codiert werden (Demnächst!).
  2. Aufmerksamkeitsmechanismus – eine Reise durch das Herzstück der Transformer-Architektur, bei der interpretiert wird, wie sie den Kontext zwischen Token versteht.
  3. Positionsbezogene Feed-Ahead-Netzwerke — eine Analyse des Konzepts „positionsbezogen“, wie es auf neuronale Netze anwendbar ist und wie es zum Nutzen der Transformer-Architektur eingesetzt wird (Demnächst!).
  4. Restlernen und Schichtnormalisierung – eine Untersuchung der Restverbindungen, ihrer Bedeutung und der Vorteile der Normalisierung für neuronale Netze (Demnächst!).

Die Artikel sind so konzipiert, dass sie unabhängig voneinander agieren, aber zusammen bieten sie die Möglichkeit, ein vollständiges Bild der Funktionsweise von Transformers zu zeichnen. Danke fürs Lesen!

Zentrum für humane Technologie, 2023. Das KI-Dilemma – 9. März 2023. [online] Youtube. Verfügbar ab: https://www.youtube.com/watch?v=xoVJKj8lcNQ&t=853s.

Devlin, J., Chang, M.-W., Lee, Okay. und Toutanova, Okay., 2019. Bert: Vorschulung tiefer bidirektionaler Transformer zum Sprachverständnis. arXiv.org. Verfügbar ab: http://arxiv.org/abs/1810.04805.

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J. und Houlsby, N., 2021. Ein Bild sagt mehr als 16×16 Worte: Transformatoren für die Bilderkennung im Maßstab. arXiv.org. Verfügbar ab: https://arxiv.org/abs/2010.11929.

Hu, S., Shen, L., Zhang, Y., Chen, Y. und Tao, D., 2023. Zur Transformation des Reinforcement Studying durch Transformer: Der Entwicklungsverlauf. arXiv.org. Verfügbar ab: https://arxiv.org/abs/2212.14164.

Olah, C., 2015. LSTM-Netzwerke verstehen. [online] Verfügbar ab: https://colah.github.io/posts/2015-08-Understanding-LSTMs/.

Radford, A., Narasimhan, Okay., Salimans, T. und Sutskever, I., 2018. Verbesserung des Sprachverständnisses durch generatives Vortraining. Verfügbar ab: https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/Language-unsupervised/Language_Understanding_Paper.pdf.

Seattle Utilized Deep Studying, 2019. LSTM ist tot. Es lebe die Transformatoren! [online] Youtube. Verfügbar ab: https://www.youtube.com/watch?v=S27pHKBEp30.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN, Kaiser, L. und Polosukhin, I., 2017. Aufmerksamkeit ist alles, was Sie brauchen. arXiv.org. Verfügbar ab: https://arxiv.org/abs/1706.03762.

Verma, P. und Chafe, C., 2021. Ein generatives Modell für Rohaudio mithilfe von Transformer-Architekturen. arXiv.org. Verfügbar ab: https://arxiv.org/abs/2106.16036.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here