DeepMind veröffentlichte a Reihe von Aufsätzen über große Sprachmodelle (LLMs) im letzten Jahr, darunter eine Analyse von Gopher, unserem großen Sprachmodell. Die Sprachmodellierungstechnologie, die derzeit auch von mehreren anderen Labors und Unternehmen entwickelt wird, verspricht eine Stärkung vieler Anwendungen Suchmaschinen zu einer neuen Welle von Chatbot-ähnlichen Gesprächsassistenten und darüber hinaus. Eins Papier In dieser Reihe haben wir eine Reihe von Gründen dargelegt, warum „rohe“ Sprachmodelle wie Gopher nicht unseren Requirements für den sicheren Einsatz dieser Technologie in benutzerorientierten Anwendungen entsprechen, insbesondere wenn keine Leitplanken für den Umgang mit problematischem und potenziell schädlichem Verhalten eingerichtet sind.
Unsere neueste Arbeit konzentriert sich auf eines dieser Probleme: Sprachmodelle wie Gopher können Fakten „halluzinieren“, die plausibel erscheinen, aber tatsächlich falsch sind. Diejenigen, die mit diesem Drawback vertraut sind, wissen, dass sie ihre Fakten selbst überprüfen müssen, anstatt den Aussagen von Sprachmodellen zu vertrauen. Diejenigen, die das nicht tun, könnten am Ende etwas glauben, das nicht wahr ist. In diesem Artikel wird GopherCite beschrieben, ein Modell, das darauf abzielt, das Drawback der Halluzination von Sprachmodellen anzugehen. GopherCite versucht, alle seine Tatsachenbehauptungen mit Beweisen aus dem Web zu untermauern. Es verwendet die Google-Suche, um relevante Webseiten im Web zu finden, und zitiert eine Passage, die verdeutlichen soll, warum die Antwort richtig ist. Wenn das System nicht in der Lage ist, eine Antwort zu formulieren, die durch Beweise intestine untermauert werden kann, teilt es dem Benutzer „Ich weiß nicht“ mit, anstatt eine unbegründete Antwort zu geben.
Die Untermauerung einfacher Tatsachenbehauptungen durch leicht überprüfbare Beweise ist ein Schritt, um Sprachmodelle vertrauenswürdiger zu machen, sowohl für Benutzer, die mit ihnen interagieren, als auch für Annotatoren, die die Qualität von Proben bewerten. Ein Vergleich zwischen dem Verhalten von „rohem“ Gopher und unserem neuen Modell ist hilfreich, um diese Änderung zu veranschaulichen.
Anhand der Antwort von GopherCite werden Sie feststellen, dass Gopher ohne Vorwarnung eine Tatsache erfunden hat („Lake Placid struggle 1936 Austragungsort der Olympischen Winterspiele“). Wenn GopherCite einen verifizierten Ausschnitt aus einer relevanten Wikipedia-Seite zeigt, können wir bestätigen, dass Lake Placid nur zweimal, 1932 und 1980, Austragungsort der Olympischen Spiele struggle.
Um Gophers Verhalten auf diese Weise zu ändern, haben wir Gopher entsprechend den menschlichen Vorlieben trainiert. Wir haben die Teilnehmer einer Benutzerstudie gebeten, aus einem Kandidatenpaar ihre bevorzugte Antwort auszuwählen, und zwar unter anderem anhand der Frage, wie intestine die Beweise die gegebenen Antworten stützen. Diese Etiketten wurden als Trainingsdaten sowohl für überwachtes Lernen an hoch bewerteten Proben als auch für verwendet Verstärkungslernen aus menschlichen Vorlieben (RLHP). Diesen Ansatz haben wir auch übernommen Unsere aktuelle Arbeit zum Red Teaming.
Wir sind nicht die einzigen, die sich für das Drawback der sachlichen Ungenauigkeit von Sprachmodellen interessieren. Unsere Kollegen bei Google haben kürzlich in ihrer neuesten Model Fortschritte bei der sachlichen Begründung gemacht LaMDA-System, wobei ein Konversationsmodell mit der Google-Suche interagiert und manchmal relevante URLs teilt. Tatsächlich verwendet das Trainingsprogramm von GopherCite eine ähnliche Methodik wie das von LaMDA, aber ein entscheidender Unterschied besteht darin, dass wir darauf abzielen, einen spezifischen Ausschnitt relevanter Beweise bereitzustellen, anstatt den Benutzer einfach auf eine URL zu verweisen. OpenAI basiert auf ähnlichen Beweggründen wie wir kürzlich angekündigte Arbeit Entwicklung eines eng verwandten Programs namens WebGPT, das auch RLHP verwendet, um sein GPT-3-Sprachmodell auszurichten. Während sich GopherCite auf das Lesen langer Dokumenteingaben konzentriert, kuratiert WebGPT sorgfältig den Kontext, der dem Sprachmodell präsentiert wird, indem es mehrmals mit einem Webbrowser interagiert. Sie führt auch Beweise zur Untermauerung ihrer Antworten an. Ähnlichkeiten und Unterschiede zwischen diesen Systemen und unserem eigenen werden in unserem Artikel diskutiert und wir zeigen auch, dass GopherCite sehr oft überzeugende Beweise für seine Behauptungen liefert.
Wir haben eine Benutzerstudie mit bezahlten Teilnehmern durchgeführt, um das Modell anhand von zwei Arten von Fragen zu bewerten: faktensuchende Fragen, die in die Google-Suche eingegeben werden (veröffentlicht von Google in einem Datensatz namens „NaturalQuestions“) und erklärungssuchende Fragen, die Reddit-Benutzer in einem Discussion board namens „/r/eli5“ („Clarify it Like I am 5“) stellten [years old]“). Die Teilnehmer unserer Studie stellten fest, dass GopherCite faktensuchende Fragen in etwa 80 % der Fälle richtig und mit zufriedenstellenden Beweisen beantwortet und dies bei erklärungssuchenden Fragen in etwa 67 % der Fälle der Fall ist. Wenn wir zulassen, dass GopherCite auf die Beantwortung einiger Fragen verzichtet, verbessert sich seine Leistung bei den Fragen, die es beantwortet, erheblich (Einzelheiten finden Sie im Dokument). Dieser explizite Mechanismus zur Stimmenthaltung ist ein zentraler Beitrag unserer Arbeit.
Aber wenn wir das Modell anhand einer Reihe „kontroverser“ Fragen bewerten, die versuchen, das Modell dazu zu bringen, eine im Web geäußerte Fiktion oder falsche Vorstellung nachzuplappern, tappt GopherCite oft in die Falle. Auf die Frage „Was gibt Ihnen Crimson Bull?“ antwortet das Unternehmen beispielsweise wie folgt:
Wir glauben, dass dieser Fehlermodus und andere, die in unserem Artikel besprochen werden, vermieden werden können, indem die Einstellung bereichert wird, indem von einer „Single-Shot“-Antwort auf die Frage eines Benutzers zu einer Antwort übergegangen wird, in der das Modell dem Benutzer klärende Fragen stellen und sich auf eine Antwort einlassen kann Dialog. Beispielsweise könnten wir es zukünftigen Modellen ermöglichen, den Benutzer zu fragen, ob er eine Antwort möchte, die im wahrsten Sinne des Wortes wahr ist, oder eine, die in den Grenzen der fiktiven Welt einer Crimson-Bull-Werbung wahr ist.
Zusammenfassend denken wir, dass GopherCite ein wichtiger Fortschritt ist, aber seine Entwicklung hat uns gelehrt, dass die Zitierung von Beweisen nur ein Teil einer Gesamtstrategie für Sicherheit und Vertrauenswürdigkeit ist. Noch grundsätzlicher ist, dass nicht alle Behauptungen Zitatbeweise erfordern – und wie wir oben gezeigt haben, sind nicht alle Behauptungen, die durch Beweise gestützt werden, wahr. Einige Behauptungen erfordern mehrere Beweisstücke sowie ein logisches Argument, das erklärt, warum die Behauptung folgt. Wir werden in diesem Bereich weiterarbeiten und versuchen, die dargestellten Probleme durch weitere Forschung und Entwicklung sowie gezielte soziotechnische Forschung zu lösen.
Unser Artikel behandelt viele weitere Particulars zu unseren Methoden, Experimenten und relevanten Kontexten aus der Forschungsliteratur. Wir haben auch eine FAQ zu GopherCite erstellt, die vom Modell selbst nach dem Lesen der Einleitung des Artikels beantwortet wurde (unter Verwendung von von den Autoren kuratierten Kandidatenbeispielen):