Das bekannte, von OpenAI entwickelte ChatGPT ist eines der besten Beispiele für Giant Language Fashions (LLMs), die kürzlich veröffentlicht wurden. LLMs wie ChatGPT haben die Welt mit ihrem unübertroffenen Potenzial und ihrer Fähigkeit, Menschen bei der Ausführung verschiedener Aufgaben nachzuahmen, im Sturm erobert. Diese Modelle verfügen größtenteils über eine Feinabstimmung der Anweisungen, um das Modell an die Ausführung einiger häufiger Aufgaben zu gewöhnen. Bei diesem Ansatz werden die Modelle anhand überwachter Eingabe- und Ausgabepaare trainiert, die aus anderen Modellen abgeleitet werden können.
Für die aktuellen Fortschritte bei Sprachmodellen zur Befehlsoptimierung werden verschiedene offene Datensätze zur Befehlsfolge verwendet. Obwohl offene Modelle mit hochmodernen proprietären Modellen konkurrieren können, werden diese Behauptungen häufig nur durch eine eingeschränkte Bewertung gestützt, was es schwierig macht, Modelle eingehend zu vergleichen und den Wert verschiedener Ressourcen zu bestimmen. Um dieses Drawback anzugehen, hat ein Forscherteam des Allen Institute for AI und der College of Washington eine breite Palette an anweisungsgesteuerten Modellen mit Parametergrößen im Bereich von 6,7 Milliarden bis 65 Milliarden eingeführt.
Diese Modelle werden anhand von 12 Anweisungsdatensätzen trainiert, die von synthetischen und destillierten Datensätzen wie Alpaca bis hin zu handkuratierten Datensätzen wie OpenAssistant reichen. Die Modelle werden in verschiedenen Bereichen sorgfältig getestet, darunter Argumentation, Mehrsprachigkeit, Kodierung, Faktenwissen und Fähigkeiten zur ergebnisoffenen Befolgung von Anweisungen. Um eine gründliche Studie zu ermöglichen, wird die Bewertung mithilfe einer Sammlung automatischer, modellbasierter und menschenbasierter Metriken durchgeführt.
Das Workforce hat außerdem TÜLU eingeführt, eine Suite großer Sprachmodelle, die auf eine Kombination von Datenquellen abgestimmt sind. Diese Modelle werden mithilfe einer Kombination hochwertiger offener Ressourcen verfeinert. Das Workforce hat die Leistung verschiedener Datensätze zur Unterrichtsoptimierung und deren Auswirkungen auf bestimmte Fähigkeiten durch verschiedene Auswertungen untersucht. Sie fanden heraus, dass unterschiedliche Datensätze bestimmte Fähigkeiten offenbaren oder verbessern können und dass weder ein einzelner Datensatz noch eine Reihe von Datensätzen über alle Auswertungen hinweg die höchste Leistung erbringt.
Das Workforce hat erwähnt, dass ein interessantes Ergebnis der Forschung darin besteht, dass Benchmark-basierte Bewertungen die Unterschiede in den Modellfähigkeiten, die durch Modellvergleiche gezeigt werden, nicht erfassen. Das beste Modell in jeder Bewertung erreichte durchschnittlich 83 % der Leistung von ChatGPT und 68 % der Leistung von GPT-4. Das Workforce hat erklärt, dass TÜLU mit 65 Milliarden Parametern die größte öffentlich veröffentlichte, vollständig auf Anweisungen abgestimmte Variante ist, die auf sieben beliebten verfügbaren Datensätzen trainiert wurde. Es hat die beste durchschnittliche Leistung erzielt und blieb dabei bei jeder einzelnen Aufgabe innerhalb von 15 % des leistungsstärksten Modells.
Einige der wichtigsten Beiträge, die in der Forschungsarbeit erwähnt werden, sind:
- Spezifische domänen- und fähigkeitsspezifische Befehlsdatensätze sind sehr erfolgreich bei der Verbesserung der Modellleistung.
- Größere oder über einen längeren Zeitraum vorab trainierte Basismodelle weisen nach der Optimierung der Anweisungen durchweg eine bessere Leistung auf.
- Die beste durchschnittliche Leistung bei allen Benchmarks wurde von TÜLU erzielt, dem fein abgestimmten LLaMa auf einer Mischung vorhandener Befehlsdatensätze, obwohl es beim getrennten Vergleich verschiedener Bewertungseinstellungen nicht die beste ist.
- Selbst ein sehr großes 65B-Parametermodell, das für eine Vielzahl von Befehlsdatensätzen optimiert wurde, reicht nicht an ChatGPT heran, obwohl es vergleichbare kleinere Modelle deutlich übertrifft.
- Starke Korrelationen zwischen der modellbasierten Präferenzbewertung bei der Befolgung von Anweisungen mit offenem Ende und der typischen Anzahl eindeutiger Token, die von einem Modell erzeugt werden, weisen darauf hin, dass die modellbasierte Präferenzbewertung Verzerrungen enthält, die Variationen in den Modellfähigkeiten maskieren können.
Besuche die Papier Und Github-Link. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Information-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.