Deep Studying mit Transformatoren hat den Bereich des maschinellen Lernens revolutioniert und bietet verschiedene Modelle mit unterschiedlichen Merkmalen und Fähigkeiten. Während Faktoren wie die Anzahl der Parameter, Aktivierungsfunktionen, architektonische Nuancen, Kontextgrößen, der Datenkorpus vor dem Coaching und die beim Coaching verwendeten Sprachen diese Modelle unterscheiden, ist ein oft übersehener Aspekt, der sich erheblich auf ihre Leistung auswirken kann, der Trainingsprozess. In diesem Artikel werden wir uns auf der Grundlage ihrer Trainingsmethoden mit den drei großen Kategorien von Transformatormodellen befassen: GPT-ähnlich (autoregressiv), BERT-ähnlich (automatische Kodierung) und BART/T5-ähnlich (Sequenz-zu-Kodierung). Reihenfolge).
Letztendlich ist es ein Muss, die Unterschiede dieser Modelle zu verstehen und sie dann für Ihre persönlichen Bedürfnisse zu nutzen. Zu viele Leute haben versucht, GPT-4 in jeden sprachbasierten Anwendungsfall zu integrieren, unabhängig davon, ob dies angemessen wäre. Durch diesen Artikel erhalten Sie ein besseres Verständnis für die verschiedenen Arten von Transformatoren und erfahren, wann sie am nützlichsten sind.
Sequenz-zu-Sequenz-Modelle sind die OG-Transformatoren. Diese wurden bereits im ursprünglichen Transformer-Papier vorgestellt. Sequence-to-Sequence-Transformer-Modelle verfolgen einen relativ einfachen Ansatz, indem sie eine gesamte Sequenz in eine höhere Dimension einbetten, die dann von einem Decoder dekodiert wird. Diese wurden hauptsächlich für Übersetzungsaufgaben entwickelt, da sie hervorragend Sequenzen zwischen Sprachen abbilden können.
Angenommen, wir möchten vom Englischen ins Hindi übersetzen, gehen wir wie folgt vor:
- Übersetzen Sie den englischen Satz mithilfe des Encoders in eine Einbettung. ( „Mein Title ist Devansh“ in „Gook Grak“ umwandeln).
- Verwenden Sie einen Decoder, der die Einbettung übernimmt und in einen Hindi-Satz umwandelt. (Übersetzen Sie „Grook Grak“ in „Mera naam Devansh hai“).
- BOOM!
Bei diesen Architekturen liegt der Schwerpunkt auf der Aufnahme und Zuordnung von Sequenzen zueinander. Dadurch sind sie perfect für übersetzungsbezogene Aufgaben geeignet. Die getrennte Verwendung der Encoder- und Decoder-Blöcke bringt noch einen weiteren großen Vorteil mit sich: Dieser Ansatz lässt sich relativ einfach auf neuere Sprachen skalieren. Um eine neue Sprache hinzuzufügen, müssen wir lediglich die Encoder und Decoder der Einbettungssprache in die Sprache ändern, in die bzw. aus der wir übersetzen möchten.
Diese Modelle sind großartig, aber was passiert, wenn wir zur Textgenerierung kommen? In solchen Fällen verfügen wir möglicherweise nicht immer über eine vollständige Sequenz, auf die/von der wir abbilden. Die Sequenzen stimmen möglicherweise nicht perfekt überein (was sowohl für sehr lange als auch für kurze Sequenzen gilt). Hier kommt die nächste Artwork der Transformer-Architektur ins Spiel.
Autoregressive Modelle, die durch GPT (Generative Pre-trained Transformer) populär gemacht wurden, nutzen die vorherigen Token, um das nächste Token iterativ vorherzusagen. Sie verwenden probabilistische Schlussfolgerungen zur Textgenerierung und stützen sich dabei stark auf die Decoderkomponente des Transformators. Im Gegensatz zu Sequenz-zu-Sequenz-Modellen erfordern autoregressive Modelle keine explizite Eingabesequenz und eignen sich für Textgenerierungsaufgaben. Sie erfreuen sich großer Beliebtheit und zeichnen sich durch Vielseitigkeit und Feinabstimmung aus, was sie für verschiedene Anwendungen wertvoll macht, insbesondere im geschäftlichen Kontext.
Automatische Regression ist nicht nur in Transformers üblich. Aufgaben wie die Zeitreihenprognose sind ihrer Natur nach sehr autoregressiv. AR Transformers zeigen eine große Vielseitigkeit bei der Feinabstimmung, was bei Enterprise-Brüdern ein großes Plus ist.
Das Drawback bei Autoregressoren besteht darin, dass die Modelle den zugrunde liegenden Textual content nicht wirklich verstehen müssen, um ihn zu generieren. Dies ist eines der Probleme mit Textual content, der aus AR-Modellen generiert wird – obwohl er strukturell in Ordnung aussieht, ist er nicht sehr zuverlässig (die viel diskutierten Halluzinationen). Dies zeigt sich bei „einfacheren“ Fällen wie Textzusammenfassungen, die oft immer noch voller Unwahrheiten sind (PSA-GPT-basierte Zusammenfassungstools sind eine wirklich dumme Idee). Glücklicherweise können wir für Aufgaben, die ein fortgeschrittenes Sprachverständnis erfordern, die nächste Artwork von Transformer-Architektur verwenden.
Wenn wir Transformatoren haben, die sich stark auf den Decoder konzentrieren, sollte es Sie nicht überraschen, dass wir auch Transformatoren haben, die sich stark mit der Kodierungsseite befassen. Hier kommen Autoencoding-Modelle ins Spiel. Autokodierungsmodelle sind speziell auf Sprachverständnis- und Klassifizierungsaufgaben ausgerichtet und zielen darauf ab, aussagekräftige Darstellungen von Eingabedaten in ihrer kodierten Kind zu erfassen.
Der Trainingsprozess von Autoencoding-Modellen beinhaltet häufig Bidirektionalität, was bedeutet, dass sie sowohl den Vorwärts- als auch den Rückwärtskontext der Eingabesequenz berücksichtigen. Durch die Nutzung der bidirektionalen Kodierung können diese Modelle Abhängigkeiten und Beziehungen innerhalb des Textes effektiver erfassen. Darüber hinaus verwenden Autoencoder Maskierungstechniken, um bestimmte Teile der Eingabe während des Trainings absichtlich zu verbergen oder zu verfälschen. Dieser Prozess zwingt das Modell dazu, robuste Funktionen zu erlernen und die Fähigkeit zu entwickeln, fehlende oder beschädigte Informationen zu rekonstruieren und zu identifizieren.
Zu den bemerkenswerten Autoencodern gehört die BERT-Familie, die bei vielen Klassifikationen und zusammenfassungsorientierten Aufgaben (insbesondere im Finanz- und Rechtsbereich) zu einer tragenden Säule geworden ist. Diese sollten Sie bei Ihren Einsatzmöglichkeiten nicht außer Acht lassen.
Hoffentlich haben Sie jetzt ein besseres Verständnis für die verschiedenen Arten von Transformatoren und deren Unterschiede. Deep Studying mit Transformatoren umfasst eine Vielzahl von Modellen, jedes mit seiner einzigartigen Trainingsmethodik und seinem einzigartigen Zweck. Sequenz-zu-Sequenz-Modelle eignen sich hervorragend für die Abbildung von Sequenzen zwischen Sprachen, autoregressive Modelle sind leistungsstark für die Textgenerierung und Modelle mit automatischer Kodierung konzentrieren sich auf das Verständnis und die Klassifizierung von Sprachen. Das Verständnis der verschiedenen Arten von Transformatoren und ihrer Schulungsprozesse kann Forschern, Praktikern und Enthusiasten bei der Auswahl des am besten geeigneten Modells für ihre spezifischen Anwendungsfälle helfen. Während sich der Bereich der künstlichen Intelligenz weiterentwickelt, versprechen Fortschritte bei Transformatormodellen spannende Entwicklungen in der Verarbeitung natürlicher Sprache und der künstlichen Intelligenz insgesamt.
Das ist es für dieses Stück. Ich schätze Ihre Zeit. Wenn Sie wie immer daran interessiert sind, mit mir zusammenzuarbeiten oder sich meine anderen Arbeiten anzusehen, finden Sie meine Hyperlinks am Ende dieser E-Mail/dieses Beitrags. Wenn Ihnen meine Texte gefallen, würde ich mich sehr über ein anonymes Zeugnis freuen. Sie können es hier abgeben. Und wenn Sie diesen Artikel für wertvoll halten, würde ich mich freuen, wenn Sie ihn mit mehr Menschen teilen. Es sind Mund-zu-Mund-Propaganda wie Ihre, die mir helfen, zu wachsen.
Sparen Sie Zeit, Energie und Geld, die Sie durch die Durchsicht all dieser Movies, Kurse, Produkte und „Coaches“ verbrauchen würden, und finden Sie ganz einfach alle Ihre Bedürfnisse an einem Ort unter „Technik leicht gemacht“! Bleiben Sie mit Experteneinblicken, Tipps und Ressourcen immer einen Schritt voraus in den Bereichen KI, Softwareentwicklung und Technologiebranche. 20 % Rabatt für neue Abonnenten, wenn Sie auf diesen Link klicken. Abonnieren Sie jetzt und vereinfachen Sie Ihre Tech-Reise!
Durch die Nutzung dieses Rabatts werden die Preise gesenkt.
800 INR (10 USD) → 640 INR (8 USD) professional Monat
8000 INR (100 USD) → 6400 INR (80 USD) professional Jahr (533 INR /Monat)
Erhalten Sie 1 Jahr lang 20 % Rabatt
Verwenden Sie die untenstehenden Hyperlinks, um sich meine anderen Inhalte anzusehen, mehr über Nachhilfe zu erfahren, mich wegen Projekten zu kontaktieren oder einfach nur Hallo zu sagen.
Kleine Ausschnitte über Technologie, KI und maschinelles Lernen hier
KI-Newsletter – https://artificialintelligencemadesimple.substack.com/
Der Lieblings-Tech-Newsletter meiner Oma – https://codinginterviewsmadesimple.substack.com/
Schauen Sie sich meine anderen Artikel auf Medium an. : https://rb.gy/zn1aiu
Mein YouTube: https://rb.gy/88iwdd
Kontaktieren Sie mich auf LinkedIn. Lassen Sie uns verbinden: https://rb.gy/m5ok2y
Mein Instagram: https://rb.gy/gmvuy9
Mein Twitter: https://twitter.com/Machine01776819