Red Teaming-Sprachmodelle mit Sprachmodellen

0
23


In unserer Aktuelles PapierWir zeigen, dass es möglich ist, automatisch Eingaben zu finden, die schädlichen Textual content aus Sprachmodellen hervorrufen, indem Eingaben mithilfe der Sprachmodelle selbst generiert werden. Unser Ansatz bietet ein Device zum Auffinden schädlicher Modellverhaltensweisen, bevor Benutzer davon betroffen sind. Wir betonen jedoch, dass er als eine Komponente neben vielen anderen Techniken betrachtet werden sollte, die erforderlich sind, um Schäden zu finden und sie zu mildern, sobald sie gefunden wurden.

Große generative Sprachmodelle wie GPT-3 und Gopher verfügen über eine bemerkenswerte Fähigkeit, qualitativ hochwertigen Textual content zu generieren, sind jedoch in der realen Welt nur schwer umzusetzen. Generative Sprachmodelle bergen das Risiko, sehr schädlichen Textual content zu generieren, und selbst ein geringes Schadensrisiko ist in realen Anwendungen nicht akzeptabel.

Beispielsweise veröffentlichte Microsoft im Jahr 2016 den Tay-Twitter-Bot, um als Reaktion auf Benutzer automatisch zu twittern. Innerhalb von 16 Stunden Microsoft hat Tay ausgeschaltet nachdem mehrere feindselige Benutzer Tay rassistische und sexuell aufgeladene Tweets entlockten, die an über 50.000 Follower gesendet wurden. Das Ergebnis warfare nicht aus mangelnder Sorgfalt seitens Microsoft:

„Obwohl wir auf viele Arten von Missbrauch des Techniques vorbereitet waren, hatten wir bei diesem speziellen Angriff ein entscheidendes Versehen begangen.“

Peter Lee
Vizepräsident, Microsoft

Das Drawback besteht darin, dass es so viele mögliche Eingaben gibt, die dazu führen können, dass ein Modell schädlichen Textual content generiert. Daher ist es schwierig, alle Fälle zu finden, in denen ein Modell ausfällt, bevor es in der realen Welt eingesetzt wird. Frühere Arbeiten stützen sich auf bezahlte menschliche Annotatoren, um Fehlerfälle manuell zu entdecken (Xu et al. 2021, unter anderem). Dieser Ansatz ist effektiv, aber teuer und begrenzt die Anzahl und Vielfalt der gefundenen Fehlerfälle.

Unser Ziel ist es, manuelle Assessments zu ergänzen und die Anzahl kritischer Versehen zu reduzieren, indem wir automatisch Fehlerfälle (oder „Pink Teaming“) finden. Dazu generieren wir Testfälle mithilfe eines Sprachmodells selbst und verwenden einen Klassifikator, um verschiedene schädliche Verhaltensweisen in Testfällen zu erkennen, wie unten gezeigt:

Unser Ansatz deckt eine Vielzahl schädlicher Modellverhaltensweisen auf:

  1. Anstößige Sprache: Hassreden, Obszönitäten, sexuelle Inhalte, Diskriminierung usw.
  2. Datenlecks: Generieren urheberrechtlich geschützter oder privater, persönlich identifizierbarer Informationen aus dem Schulungskorpus.
  3. Generierung von Kontaktinformationen: Benutzer dazu verleiten, unnötigerweise echte Personen per E-Mail zu kontaktieren oder anzurufen.
  4. Verteilungsverzerrung: Im Durchschnitt über eine große Anzahl von Ausgaben wird über einige Personengruppen auf ungerechtfertigte Weise anders gesprochen als über andere Gruppen.
  5. Konversationsschäden: Beleidigende Sprache, die beispielsweise im Kontext eines langen Dialogs vorkommt.

Um Testfälle mit Sprachmodellen zu generieren, erforschen wir eine Vielzahl von Methoden, die von der prompt-basierten Generierung und dem Lernen mit wenigen Schüssen bis hin zu überwachter Feinabstimmung und verstärkendem Lernen reichen. Einige Methoden generieren vielfältigere Testfälle, während andere Methoden schwierigere Testfälle für das Zielmodell generieren. Zusammengenommen sind die von uns vorgeschlagenen Methoden nützlich, um eine hohe Testabdeckung zu erreichen und gleichzeitig kontradiktorische Fälle zu modellieren.

Sobald wir Fehlerfälle finden, wird es einfacher, schädliches Modellverhalten zu beheben, indem wir:

  1. Bestimmte Phrasen, die häufig in schädlichen Ausgaben vorkommen, werden auf die schwarze Liste gesetzt, um zu verhindern, dass das Modell Ausgaben generiert, die Phrasen mit hohem Risiko enthalten.
  2. Suchen nach anstößigen Trainingsdaten, die vom Modell zitiert werden, um diese Daten beim Coaching zukünftiger Iterationen des Modells zu entfernen.
  3. Erweitern der Eingabeaufforderung des Modells (Konditionierungstext) um ein Beispiel des gewünschten Verhaltens für eine bestimmte Artwork von Eingabe, wie in unserem Beispiel gezeigt kürzliche Arbeit.
  4. Trainieren Sie das Modell, um Minimieren Sie die Wahrscheinlichkeit seiner ursprünglichen, schädlichen Ausgabe für eine gegebene Testeingabe.

Insgesamt sind Sprachmodelle ein äußerst effektives Werkzeug, um aufzudecken, wenn sich Sprachmodelle auf vielfältige, unerwünschte Weise verhalten. In unserer aktuellen Arbeit haben wir uns auf Pink-Teaming-Schäden konzentriert, die heutige Sprachmodelle verursachen. Zukünftig kann unser Ansatz auch dazu genutzt werden, präventiv andere, vermutete Schäden durch fortschrittliche maschinelle Lernsysteme zu entdecken, z. B. aufgrund von innere Fehlausrichtung oder Fehler in der objektiven Robustheit. Dieser Ansatz ist nur eine Komponente der verantwortungsvollen Entwicklung von Sprachmodellen: Wir betrachten Pink Teaming als ein Werkzeug, das neben vielen anderen eingesetzt werden kann, um sowohl Schäden in Sprachmodellen zu finden als auch diese abzumildern. Wir verweisen auf Abschnitt 7.3 von Rae et al. 2021 für eine umfassendere Diskussion anderer Arbeiten, die für die Sicherheit von Sprachmodellen erforderlich sind.

Weitere Einzelheiten zu unserem Ansatz und unseren Ergebnissen sowie zu den umfassenderen Konsequenzen unserer Ergebnisse finden Sie in unserer rotes Teaming-Papier Hier.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here