– Giant Language Fashions (LLMs) sind eine Teilmenge des Deep Studying.
– LLMs können vorab trainiert und auf bestimmte Zwecke abgestimmt werden.
– Der Kurs behandelt LLM-Anwendungsfälle, Immediate Tuning und Googles Gen AI-Entwicklungstools.
Was sind große Sprachmodelle?
Definition großer Sprachmodelle
– Große Sprachmodelle beziehen sich auf große Allzweck-Sprachmodelle, die vorab trainiert und dann für bestimmte Zwecke optimiert werden können.
– Sie werden für allgemeine Zwecke geschult, um gängige Sprachprobleme wie Textklassifizierung, Beantwortung von Fragen, Dokumentzusammenfassung und Textgenerierung branchenübergreifend zu lösen.
– Die Modelle können dann mithilfe einer relativ kleinen Größe von Felddatensätzen so angepasst werden, dass sie spezifische Probleme in verschiedenen Bereichen wie Einzelhandel, Finanzen und Unterhaltung lösen.
Merkmale großer Sprachmodelle
– „Groß“ hat zwei Bedeutungen: die enorme Größe des Trainingsdatensatzes (manchmal im Petabyte-Bereich) und die Parameteranzahl (oft als Hyperparameter bezeichnet).
– „Allgemeiner Zweck“ bedeutet, dass die Modelle aufgrund der Gemeinsamkeit der menschlichen Sprache unabhängig von spezifischen Aufgaben ausreichen, um allgemeine Probleme zu lösen.
– Nach dem Vortraining eines großen Sprachmodells für einen allgemeinen Zweck mit einem großen Datensatz folgt die Feinabstimmung für spezifische Ziele mit einem viel kleineren Datensatz.
Ausbildung von Hunden vs. Ausbildung von LLMs
Vergleich zwischen Hundetraining und LLM-Coaching
– Grundkommandos wie „Sitz“, „Komm“, „Platz“ und „Bleib“ genügen im Hundeerziehungsalltag in der Regel.
– Sonderausbildungen kommen jedoch hinzu, wenn Sie einen besonderen Diensthund benötigen, beispielsweise einen Polizeihund, einen Blindenführhund oder einen Jagdhund.
– Ebenso werden große Sprachmodelle für allgemeine Zwecke trainiert, um häufige Sprachprobleme zu lösen. Sie können dann mithilfe einer relativ kleinen Größe von Felddatensätzen auf die Lösung spezifischer Probleme in verschiedenen Bereichen zugeschnitten werden.
Vorteile großer Sprachmodelle
Vorteile der Verwendung großer Sprachmodelle
– Ein einziges Modell kann für verschiedene Aufgaben verwendet werden, einschließlich Sprachübersetzung, Satzvervollständigung, Textklassifizierung, Beantwortung von Fragen und mehr.
– Große Sprachmodelle erfordern nur minimale Feldtrainingsdaten, wenn Sie sie an die Lösung Ihres spezifischen Issues anpassen. Sie erzielen selbst mit wenigen Domänentrainingsdaten eine ordentliche Leistung.
– Die Leistung großer Sprachmodelle nimmt kontinuierlich zu, wenn Sie mehr Daten und Parameter hinzufügen.
Beispiel: PaLM
- Im April 2022 veröffentlichte Google PaLM (Pathways Language Mannequin), ein Modell mit 540 Milliarden Parametern, das modernste Leistung bei mehreren Sprachaufgaben bietet.
– PaLM ist ein reines dichtes Decoder-Transformermodell, das das neue Pfadsystem nutzt, um ein einzelnes Modell effizient über mehrere TPU V4-Pods hinweg zu trainieren.
– Pathway ist eine neue KI-Architektur, die viele Aufgaben gleichzeitig erledigt und neue Aufgaben schnell erlernt. Das System ermöglicht es PaLM, verteilte Berechnungen für Beschleuniger zu orchestrieren.
Einführung in die generative KI
Traditionelle Programmierung vs. generative KI
– In der traditionellen Programmierung sind Regeln zur Unterscheidung von Objekten fest codiert.
– In neuronalen Netzen können Bilder von Objekten verwendet werden, um das Netzwerk darauf zu trainieren, sie zu erkennen.
– Bei der generativen KI können Benutzer ihre eigenen Inhalte mithilfe vorab trainierter Modelle wie PaLM oder LaMDA generieren.
Immediate Design in der LLM-Entwicklung
Immediate Design vs. traditionelle ML-Entwicklung
– Für die LLM-Entwicklung sind keine Fachkenntnisse oder Schulungsbeispiele erforderlich.
– Beim Immediate-Design handelt es sich um den Prozess, einen klaren und informativen Immediate zu erstellen.
– Die traditionelle ML-Entwicklung erfordert Trainingsbeispiele und Rechenzeit/{Hardware}.
Generative Qualitätssicherung vs. domänenwissensbasierte Qualitätssicherung
– Für die Entwicklung von Frage-Antwort-Modellen auf der Grundlage spezifischer Bereiche wie Kundensupport oder Gesundheitswesen sind Domänenkenntnisse erforderlich.
– Generative QA-Modelle erfordern keine Domänenkenntnisse, da sie Freitext direkt basierend auf dem Kontext generieren.
– ChatGPT, ein von OpenAI entwickelter Chatbot mit großem Sprachmodell, liefert aufgrund des prompten Designs genaue Antworten.
Immediate Design vs. Immediate Engineering
– Bei der Gestaltung von Eingabeaufforderungen handelt es sich um die Erstellung einer Eingabeaufforderung, die auf die spezifische Aufgabe zugeschnitten ist.
– Beim Immediate-Engineering handelt es sich um die Erstellung einer Eingabeaufforderung zur Verbesserung der Leistung.
– Ein zeitnaher Entwurf ist unerlässlich, während ein zeitnahes Engineering nur für Systeme erforderlich ist, die eine hohe Genauigkeit oder Leistung erfordern.
Arten großer Sprachmodelle
- Generische Sprachmodelle sagen das nächste Wort basierend auf Trainingsdaten voraus.
– Auf Anweisungen abgestimmte Modelle werden auf bestimmte Aufgaben trainiert und erfordern auf diese Aufgaben zugeschnittene Eingabeaufforderungen.
– Auf den Dialog abgestimmte Modelle werden anhand von Gesprächsdaten trainiert und erfordern Eingabeaufforderungen, die Gespräche simulieren.
Dialog- und aufgabenspezifisches Tuning
Dialogabgestimmte Modelle
– Auf Dialog abgestimmte Modelle sind ein Sonderfall von auf Anweisungen abgestimmten Modellen.
– Anfragen werden typischerweise als Fragen an einen Chatbot formuliert.
– Es wird erwartet, dass die Abstimmung des Dialogs im Rahmen eines längeren Hin- und Her-Gesprächs erfolgt.
– Funktioniert normalerweise besser mit natürlichen, fragenähnlichen Formulierungen.
Aufgabenspezifisches Tuning
– Vertex AI bietet aufgabenspezifische Basismodelle für verschiedene Anwendungsfälle wie das Erfassen von Stimmungen oder das Durchführen von Belegungsanalysen.
– Durch die Optimierung eines Modells können Sie die Modellreaktion anhand von Beispielen für die Aufgabe anpassen, die das Modell ausführen soll.
– Es handelt sich im Wesentlichen um den Prozess der Anpassung eines Modells an eine neue Domäne oder eine Reihe benutzerdefinierter Anwendungsfälle, indem das Modell anhand neuer Daten trainiert wird.
– Beispielsweise können wir Trainingsdaten sammeln und das Modell speziell für rechtliche oder medizinische Bereiche optimieren.
Parametereffiziente Optimierungsmethoden (PETM)
PETM
- PETMs sind Methoden zum Optimieren eines großen Sprachmodells anhand Ihrer eigenen benutzerdefinierten Daten, ohne das Modell zu duplizieren.
– Das Basismodell selbst wird nicht verändert. Stattdessen wird eine kleine Anzahl von Zusatzschichten optimiert, die zum Zeitpunkt der Inferenz ein- und ausgewechselt werden können.
Vollständiges Video: https://youtu.be/zizonToFXDs