Die Besorgnis über die möglichen negativen Auswirkungen großer Sprachmodelle (LLMs) wie Datenspeicherung, Voreingenommenheit und ungeeignete Sprache nimmt zu, obwohl LLMs weithin für ihre Fähigkeit, natürlich klingenden Textual content zu generieren, gelobt werden. Aufgrund der Komplexität und Entwicklungsfähigkeiten von LLMs ist es schwierig, solche Bedenken zu validieren (und zu korrigieren). In dieser Studie stellen die Autoren ReLM vor, ein System zur Prüfung und Abfrage von LLMs mit Hilfe konventioneller regulärer Ausdrücke. Mit ReLM können viele Sprachmodellbewertungen formalisiert und ermöglicht werden, indem komplexe Bewertungsmethoden in Abfragen mit regulären Ausdrücken vereinfacht werden.
Ergebnisse von Untersuchungen zu Auswendiglernen, geschlechtsspezifischen Vorurteilen, Toxizität und Sprachverständnis zeigen, dass ReLM die statistische und prompt-tuning-Abdeckung im Vergleich zu Advert-hoc-Suchen auf dem neuesten Stand der Technik um das 15-fache erweitern kann. Für die ständig wachsende Herausforderung der LLM-Validierung bietet ReLM einen wettbewerbsfähigen und allgemeinen Ausgangspunkt.
ReLM ist die erste Lösung, die es Praktikern ermöglicht, das LLM-Verhalten über Sammlungen, die zu umfangreich sind, um sie aufzuzählen, direkt zu messen, indem sie eine Abfrage als den gesamten Satz von Testmustern beschreiben. Der Erfolg von ReLM beruht auf der Verwendung einer kompakten grafischen Darstellung des Lösungsraums, die aus regulären Ausdrücken abgeleitet und dann vor der Ausführung in eine LLM-spezifische Darstellung kompiliert wird. Daher ist es nicht erforderlich, dass Benutzer mit den inneren Abläufen des LLM vertraut sind. Checks liefern die gleichen Ergebnisse, als ob alle möglichen Zeichenfolgen in der realen Welt vorhanden wären. Neben der Etablierung von ReLM zeigen die Autoren, wie die Muster von Strings in verschiedenen LLM-Evaluierungsaufgaben eingesetzt werden können.
Engine für reguläre Ausdrücke für LMs, kurz ReLM. Im Folgenden zeigen wir, wie ReLM dem LLM ein begrenztes, auf der Automatentheorie basierendes Dekodierungssystem hinzufügt. Benutzer von ReLM erstellen Abfragen, die das Testmuster und dessen Ausführung enthalten. ReLM kann unnötigen Aufwand vermeiden, der zu falsch-negativen Ergebnissen führt, da der Benutzer das interessierende Muster identifiziert. Darüber hinaus kann ReLM häufig ignorierte Elemente in den Testsatz einbeziehen und so Fehlalarme vermeiden, da der Benutzer Variationen des Musters bereitstellt (z. B. Kodierungen und Rechtschreibfehler). Bei korrekter Ausbreitung der Effekte auf den endgültigen Automaten kann man praktisch jedes Muster oder jede Mutation des Musters beschreiben.
Python-Benutzerprogramme können das ReLM-Framework verwenden; ReLM stellt eine spezifische API zur Verfügung, die diese Programme verwenden können. Um ReLM zu verwenden, sendet die Software program ein Abfrageobjekt und ein LLM, das in einer Bibliothek eines Drittanbieters definiert ist, beispielsweise Hugging Face Transformers (Wolf et al., 2020). Der reguläre Ausdruck, die LLM-Entscheidungsregeln und der Durchlaufalgorithmus werden alle im Abfrageobjekt gespeichert.
Benutzer von ReLM können eine Validierungsaufgabe beim Schreiben ihres Codes in zwei Teile unterteilen:
- Verwenden eines regulären Ausdrucks zur formalen Beschreibung einer Teilmenge von Zeichenfolgen.
- Führen der Engine durch den Prozess der String-Aufzählung und -Auswertung.
Forscher zeigen, dass ReLM häufige Abfragen schnell und aussagekräftig ausführen kann, wodurch der für LLMs erforderliche Validierungsaufwand erheblich reduziert wird. Am wichtigsten ist,
- Die Anwendung regulärer Ausdrücke auf LLM-Prognosen wird formal beschrieben. Reguläre Ausdrücke können Mengen unbegrenzter Größe beschreiben, im Gegensatz zu A number of-Selection-Fragen, die begrenzt und aufzählbar sind. Im Vergleich zu offenen Fragen, die manchmal zu mehrdeutigen Antworten führen, sind die Ergebnisse von ReLM durchweg klar.
- Die bedingten und unbedingten Klassen von LLM-Inferenzabfragen werden identifiziert und erstellt. Zahlreiche Token-Sequenzen können eine feste Abfragezeichenfolge darstellen, die eine komprimierte Darstellung motiviert, wie Wissenschaftler bei der Untersuchung der bedingungslosen Generierung gezeigt haben. Sie sind die erste Gruppe, die Automaten verwendet, um diese Variantenkodierungen zu berücksichtigen.
- Es wurde eine Inferenzmaschine für reguläre Ausdrücke entworfen und implementiert, die reguläre Ausdrücke effektiv in endliche Automaten umwandelt. Forscher haben eine wettbewerbsfähige GPU-Auslastung und Laufzeiten (Sekunden) erreicht, indem sie sowohl den kürzesten Weg als auch zufällige Graphdurchläufe nutzten.
- Anhand von GPT-2-Modellen veranschaulichen die Autoren den Wert von ReLM im Kontext der LLM-Validierung, indem sie Merkfähigkeit, Geschlechtervoreingenommenheit, Toxizität und Sprachverständnisaufgaben bewerten.
Weitere Particulars finden Sie im Repo https://github.com/mkuchnik/relm
Schlussfolgern
Die Notwendigkeit, Abstraktionen für große Sprachmodelle (LLMs) zu validieren, ist aufgrund der Komplexität natürlicher Sprache und der zunehmenden Verbreitung von LLMs entstanden. Um die Ausführung von Validierungsaufgaben mithilfe von LLMs zu erleichtern, stellen Forscher ReLM vor, das erste programmierbare Framework. Mit ReLM können Sie logische Abfragen in regulären Ausdrücken schreiben, die dann in eine ausführbare Kind in der LLM-Sprache umgewandelt werden können. ReLM kann Abfragen bis zu 15-mal schneller ausführen, mit 2,5-mal weniger Daten oder auf eine Artwork und Weise, die zusätzliche Einblicke als frühere Methoden in Bezug auf das Auswendiglernen, Geschlechtervorurteile, Toxizität und Sprachverständnisaufgaben bietet. Während die Ergebnisse von ReLM stark dagegen sprechen, sich auf eine Advert-hoc-LLM-Validierung zu verlassen, bringt die systematische Beantwortung von Anfragen andere Schwierigkeiten mit sich (z. B. begünstigt die autoregressive Dekodierung von hyperlinks nach rechts Suffixvervollständigungen). Zu unseren langfristigen Zielen gehört die Verbesserung der Abfrageoptimierungsfunktionen von ReLM und deren Bereitstellung für mehr Modellfamilien.
Besuche die Papier, GithubUnd CMU-Artikel. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.