Das GPT4-Modell struggle bisher DAS bahnbrechende Modell, das der breiten Öffentlichkeit entweder kostenlos oder über ihr kommerzielles Portal (zur öffentlichen Beta-Nutzung) zur Verfügung stand. Es hat bei vielen Unternehmern Wunder gewirkt, neue Projektideen und Anwendungsfälle hervorzubringen, aber die Geheimhaltung über die Anzahl der Parameter und das Modell tötete alle Enthusiasten, die auf das erste 1-Billion-Parameter-Modell auf 100-Billionen-Parameter-Ansprüche gewettet hatten!
Nun, die Katze ist aus dem Sack (sozusagen). Am 20. Juni George HotzGründer des selbstfahrenden Startups Comma.ai, hat durchsickern lassen, dass GPT-4 kein einzelnes monolithisches dichtes Modell ist (wie GPT-3 und GPT-3.5), sondern eine Mischung aus 8 x 220-Milliarden-Parameter-Modellen
Später an diesem Tag, Soumith ChintalaMitbegründer von PyTorch bei Meta, bestätigte das Leck erneut.
Erst am Tag zuvor, Michail ParachinMicrosoft Bing AI-Leiter, hatte dies ebenfalls angedeutet.
Was bedeuten all die Tweets? Der GPT-4 ist kein einzelnes großes Modell, sondern ein Zusammenschluss/Ensemble von 8 kleineren Modellen, die sich das Fachwissen teilen. Es wird gemunkelt, dass jedes dieser Modelle 220 Milliarden Parameter hat.
Die Methodik wird als Expertenmix-Modellparadigma bezeichnet (Hyperlink unten). Es handelt sich um eine bekannte Methode, die auch als Hydra-Modell bezeichnet wird. Es erinnert mich an die indische Mythologie. Ich werde mich für Ravana entscheiden.
Bitte nehmen Sie es mit Vorsicht, dass es sich nicht um eine offizielle Nachricht handelt, aber hochrangige Mitglieder der KI-Group haben sich bereits dazu geäußert bzw. angedeutet. Microsoft hat diese noch nicht bestätigt.
Nachdem wir nun über die Expertenmischung gesprochen haben, werfen wir einen kleinen Blick darauf, was das für ein Ding ist. Der Expertenmix ist eine Ensemble-Lerntechnik, die speziell für neuronale Netze entwickelt wurde. Es unterscheidet sich ein wenig von der allgemeinen Ensemble-Technik der herkömmlichen Modellierung des maschinellen Lernens (diese Type ist eine verallgemeinerte Type). Sie können additionally davon ausgehen, dass Combination of Specialists in LLMs ein Sonderfall für Ensemble-Methoden ist.
Kurz gesagt, bei dieser Methode wird eine Aufgabe in Teilaufgaben unterteilt und Experten für jede Teilaufgabe werden zur Lösung der Modelle eingesetzt. Es ist eine Möglichkeit, den Ansatz „Teile und herrsche“ bei der Erstellung von Entscheidungsbäumen anzuwenden. Man könnte es auch als Meta-Lernen zusätzlich zu den Expertenmodellen für jede einzelne Aufgabe betrachten.
Für jede Unteraufgabe oder jeden Problemtyp kann ein kleineres und besseres Modell trainiert werden. Ein Metamodell lernt, welches Modell eine bestimmte Aufgabe besser vorhersagen kann. Meta-Lernender/Modell fungiert als Verkehrspolizist. Die Unteraufgaben können sich überschneiden oder auch nicht, was bedeutet, dass eine Kombination der Ergebnisse zusammengeführt werden kann, um das endgültige Ergebnis zu erhalten.
Für die Konzeptbeschreibungen von MOE bis Pooling gebührt der Dank dem großartigen Weblog von Jason Brownlee (https://machinelearningmastery.com/mixture-of-experts/). Wenn Ihnen gefällt, was Sie unten lesen, abonnieren Sie bitte Jasons Weblog und kaufen Sie ein oder zwei Bücher, um seine großartige Arbeit zu unterstützen!
Mischung aus Expertenkurz MoE oder ME, ist eine Ensemble-Lerntechnik, die die Idee umsetzt, Experten für Teilaufgaben eines prädiktiven Modellierungsproblems zu schulen.
In der neuronalen Netzwerkgemeinschaft haben mehrere Forscher die Zerlegungsmethode untersucht. […] Combination-of-Specialists (ME)-Methodik, die den Eingaberaum so zerlegt, dass jeder Experte einen anderen Teil des Raums untersucht. […] Für die Zusammenführung der verschiedenen Experten ist ein Gating-Netzwerk zuständig.
— Seite 73, Musterklassifizierung mithilfe von Ensemble-Methoden2010.
Der Ansatz besteht aus vier Elementen:
- Aufteilung einer Aufgabe in Teilaufgaben.
- Entwickeln Sie für jede Teilaufgabe einen Experten.
- Verwenden Sie ein Gating-Modell, um zu entscheiden, welcher Experte eingesetzt werden soll.
- Pool-Vorhersagen und Gating-Modellausgabe, um eine Vorhersage zu treffen.
Die folgende Abbildung stammt aus Seite 94 des Buches von 2012 „Ensemble-Methoden„bietet einen hilfreichen Überblick über die architektonischen Elemente der Methode.
Entnommen aus: Ensemble-Methoden
Der erste Schritt besteht darin, das Downside der Vorhersagemodellierung in Teilaufgaben zu unterteilen. Dabei kommt es häufig auf Domänenwissen an. Beispielsweise könnte ein Bild in separate Elemente wie Hintergrund, Vordergrund, Objekte, Farben, Linien usw. unterteilt werden.
… ME arbeitet nach einer „Teile-und-herrsche“-Strategie, bei der eine komplexe Aufgabe in mehrere einfachere und kleinere Teilaufgaben aufgeteilt wird und einzelne Lernende (sogenannte Experten) für verschiedene Teilaufgaben geschult werden.
— Seite 94, Ensemble-Methoden2012.
Bei Problemen, bei denen die Aufteilung der Aufgabe in Teilaufgaben nicht offensichtlich ist, könnte ein einfacherer und allgemeinerer Ansatz verwendet werden. Man könnte sich beispielsweise einen Ansatz vorstellen, der den Eingabe-Function-Raum durch Gruppen von Spalten unterteilt oder Beispiele im Function-Raum basierend auf Distanzmaßen, Inliers und Outliers für eine Standardverteilung und vielem mehr trennt.
… bei ME besteht ein zentrales Downside darin, die natürliche Aufteilung der Aufgabe zu finden und dann aus Teillösungen die Gesamtlösung abzuleiten.
— Seite 94, Ensemble-Methoden2012.
Anschließend wird für jede Teilaufgabe ein Experte entworfen.
Der Combine-of-Specialists-Ansatz wurde ursprünglich im Bereich der künstlichen neuronalen Netze entwickelt und erforscht. Traditionell sind Experten selbst neuronale Netzmodelle, die zur Vorhersage eines numerischen Werts im Falle einer Regression oder einer Klassenbezeichnung im Falle einer Klassifizierung verwendet werden.
Es sollte klar sein, dass wir jedes Modell für den Experten „einstecken“ können. Beispielsweise können wir neuronale Netze nutzen, um sowohl die Gating-Funktionen als auch die Experten darzustellen. Das Ergebnis wird als Mischungsdichtenetzwerk bezeichnet.
— Seite 344, Maschinelles Lernen: Eine probabilistische Perspektive2012.
Experten erhalten jeweils das gleiche Eingabemuster (Zeile) und treffen eine Vorhersage.
Ein Modell wird verwendet, um die Vorhersagen jedes Experten zu interpretieren und bei der Entscheidung zu helfen, welchem Experten man bei einer bestimmten Eingabe vertrauen kann. Dies wird als Gating-Modell oder Gating-Netzwerk bezeichnet, da es sich traditionell um ein neuronales Netzwerkmodell handelt.
Das Gating-Netzwerk verwendet als Eingabe das Eingabemuster, das den Expertenmodellen bereitgestellt wurde, und gibt den Beitrag aus, den jeder Experte bei der Erstellung einer Vorhersage für die Eingabe leisten sollte.
… die vom Gating-Netzwerk ermittelten Gewichte werden dynamisch basierend auf der gegebenen Eingabe zugewiesen, da das MoE effektiv lernt, welcher Teil des Merkmalsraums von jedem Ensemblemitglied gelernt wird
— Seite 16, Ensemble maschinelles Lernen2012.
Das Gating-Netzwerk ist der Schlüssel zum Ansatz und effektiv lernt das Modell, den Typ der Unteraufgabe für eine bestimmte Eingabe auszuwählen, und wiederum den Experten, dem er vertrauen kann, um eine aussagekräftige Vorhersage zu treffen.
Combination-of-Specialists kann auch als Klassifikator-Auswahlalgorithmus angesehen werden, bei dem einzelne Klassifikatoren darauf trainiert werden, Experten in einem Teil des Merkmalsraums zu werden.
— Seite 16, Ensemble maschinelles Lernen2012.
Wenn neuronale Netzwerkmodelle verwendet werden, werden das Gating-Netzwerk und die Experten gemeinsam trainiert, sodass das Gating-Netzwerk lernt, wann es jedem Experten vertrauen kann, eine Vorhersage zu treffen. Dieses Trainingsverfahren wurde traditionell mit implementiert Erwartungsmaximierung (EM). Das Gating-Netzwerk verfügt möglicherweise über eine Softmax-Ausgabe, die für jeden Experten einen wahrscheinlichkeitsähnlichen Konfidenzwert liefert.
Im Allgemeinen versucht das Trainingsverfahren, zwei Ziele zu erreichen: für gegebene Experten die optimale Gating-Funktion zu finden; für eine gegebene Gating-Funktion, um die Experten in der durch die Gating-Funktion angegebenen Verteilung zu schulen.
— Seite 95, Ensemble-Methoden2012.
Schließlich muss die Mischung aus Expertenmodellen eine Vorhersage treffen, und dies wird mithilfe eines Pooling- oder Aggregationsmechanismus erreicht. Dies kann so einfach sein wie die Auswahl des Experten mit der größten Leistung oder dem größten Vertrauen, das das Gating-Netzwerk bietet.
Alternativ könnte eine gewichtete Summenvorhersage erstellt werden, die explizit die von jedem Experten gemachten Vorhersagen und die vom Gating-Netzwerk geschätzte Konfidenz kombiniert. Sie können sich andere Ansätze vorstellen, um die Vorhersagen und die Gating-Netzwerkausgabe effektiv zu nutzen.
Das Pooling-/Kombinationssystem kann dann einen einzelnen Klassifikator mit der höchsten Gewichtung auswählen oder eine gewichtete Summe der Klassifikatorausgaben für jede Klasse berechnen und die Klasse auswählen, die die höchste gewichtete Summe erhält.
— Seite 16, Ensemble maschinelles Lernen2012.