Qualität vor Quantität: Wie Phi-1 größere KI-Modelle übertrifft | von Jaroslaw Werbytski | Juni 2023

0
25


Microsoft Analysis hat mit phi-1 ein neues großes Sprachmodell für Code eingeführt, das deutlich kleiner ist als konkurrierende Modelle. Der ‚Lehrbücher sind alles, was Sie brauchen Das Papier stellt einen faszinierenden Ansatz für das Sprachmodelltraining vor, der sich mehr auf die Datenqualität als auf Quantität und Modellgröße konzentriert.

Der Ansatz beinhaltete die Verwendung eines Giant Language Mannequin (LLM), um aus 6 Milliarden hochwertigen Tokens auszuwählen Der Stack-Datensatz, eine 6 TB große Sammlung von Code von GitHub und Textdaten aus vielen Quellen (z. B. Stack Overflow). Forscher nutzten GPT-3.5, um 1 Milliarde Textual content-Tokens ähnlich wie Lehrbücher zu generieren, und trainierten anhand dieser Daten ein relativ kleines Modell (mit 1,3 Milliarden Parametern) namens „phi-1“. Nach der ersten Trainingsrunde wurde das Modell verfeinert. Das heißt, es wurde etwas mehr mit Textual content trainiert, der wie Lehrbuchübungen aussieht. Dies hilft dem Modell, das Thema besser zu verstehen. Anschließend wurde das Modell mit HumanEval getestet, einem weit verbreiteten Benchmark zum Vergleich der Leistung von LLMs. Die Ergebnisse waren beeindruckend: Das Phi-1-Modell schnitt besser ab als Modelle, die zehnmal so groß sind und mit 100-mal so vielen Daten trainiert wurden. Dies scheint darauf hinzudeuten, dass Datenqualität und eine sorgfältige Auswahl wichtiger sein können als die Datenmenge oder die Anzahl der Modellparameter.​ Ein interessanter Aspekt dieses Ansatzes ist das Potenzial zur Selbstverbesserung durch iteratives Suggestions, bei dem die Bewertung eines Modells zur weiteren Filterung verwendet wird die Trainingsdaten. Im Hinblick auf die Vorteile macht dieser Ansatz das Coaching von KI-Modellen wirtschaftlicher. Es betont die Bedeutung hochwertiger Daten und effizienter Modelle, die weitreichende Auswirkungen auf den Bereich KI und maschinelles Lernen haben können. Auch die Schulungskosten sind recht erschwinglich, Schätzungen zufolge belaufen sich die gesamten Schulungskosten auf etwa 850 bis 1200 US-Greenback.

Allerdings gibt es auch Bedenken gegen diesen Ansatz. Dieses Papier löste einige Diskussionen aus – bhauth schlägt vor dass die rekursive Selbstverbesserung, bei der ein Modell seine Leistung durch kontinuierliche Verfeinerung der Daten, auf denen es trainiert, verbessert, möglicherweise ein Plateau erreichen könnte. Dieses Plateau-Phänomen ist auch bei Menschen und Gesellschaften zu beobachten: Wenn Menschen qualitativ hochwertigere Inhalte konsumieren und daraus lernen, tendiert ihr Wachstum ab einem bestimmten Punkt dazu, zu stagnieren. Dieses Plateau könnte auch die Wirksamkeit des rekursiven Selbstverbesserungsprozesses des Phi-1-Modells einschränken. Der Großteil des menschlichen Wissens ist nicht in hochwertigen Lehrbüchern enthalten, was die allgemeinen Intelligenzfähigkeiten des Modells einschränken könnte. Während dies ein gutes Ergebnis für kleine und effiziente Modelle ist, die sich auf genau definierte Domänen konzentrieren, kann dieser Ansatz für ein Modell, das allgemeine Intelligenz anzeigen soll, zu neutralen oder sogar schlechten Ergebnissen führen. Alle Arten menschlicher Daten können potenziell verfeinert werden, um annähernd die Qualität von Lehrbüchern zu erreichen. Der Kontrapunkt besteht jedoch darin, dass einige Wissensbereiche, wie etwa subjektive Erfahrungen oder Bereiche, die ein differenziertes Verständnis erfordern, möglicherweise nicht zuverlässig in einem Lehrbuchformat zusammengefasst werden können. Ein weiterer Streitpunkt ist die Herausforderung, zu bestimmen, welche Daten überflüssig sind und welche nicht, insbesondere im großen Maßstab. Während eine vorgeschlagene Lösung darin bestand, ein Modell anhand eines Lehrbuchs zu trainieren und Sätze zu entfernen, die die Testergebnisse nicht verschlechtern, bestehen Bedenken, dass diese Methode das Drawback zu stark vereinfacht. Zu diesen Herausforderungen gehören die Entscheidung, welche Sätze hinzugefügt werden sollen, die Erfassung einer breiten Palette von Problemsätzen, die das Modell zuvor noch nicht gesehen hat, und die Vermeidung von Verzerrungen im Trainingssatz.

Die Methode „Lehrbücher sind alles, was Sie brauchen“ liefert gute Ergebnisse. Aber es beginnt auch eine neue Diskussion darüber, was Wissen ist, welchen Wert gute Daten gegenüber vielen Daten haben und wie schwierig es ist, komplexe Informationen in nützliche Trainingsdaten umzuwandeln. Dieser neue Weg bringt uns dazu, noch einmal darüber nachzudenken, wie wir KI-Modelle trainieren. Es widerspricht der üblichen Vorstellung, dass größer immer besser ist. Stattdessen heißt es, dass die Qualität der für das Coaching verwendeten Daten wichtiger sei. Diese Änderung könnte dazu führen, dass wir in Zukunft anders darüber nachdenken, wie wir KI-Modelle trainieren. Außerdem stellt es uns die Frage, ob wir diese Methode in großem Maßstab anwenden können. Da wir versuchen, KI-Modelle zu entwickeln, die besser funktionieren und weniger Strom verbrauchen, wird es immer schwieriger zu sagen, welche Daten nützlich sind und welche nicht. Dies ist ein Drawback, das wir lösen müssen, während wir uns weiterhin mit dieser neuen Methode befassen.

Trotz der Gesamtperspektive, die kaum zu leugnen ist, gibt es einige Mängel, an denen gearbeitet werden muss. Ich bin froh, dass die Autoren davon Kenntnis haben, sodass wir in Zukunft mit neuen, perfekteren Versionen rechnen können.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here