Kontextfenster und Kohärenz (Halluzinationen) in großen Sprachmodellen wie ChatGPT verstehen | von Dr. Ernesto Lee | Juni 2023

0
23


Ein faszinierender Aspekt von Sprachmodellen wie GPT-3.5 ist ihr „Kontextfenster“ – die maximale Anzahl von Token, die das Modell gleichzeitig verarbeiten kann. Das Überschreiten dieses Kontextfensters kann jedoch zu bestimmten Kohärenzproblemen in der Ausgabe führen. In diesem Abschnitt werden wir uns näher mit diesem Konzept befassen und einige Beispiele dafür untersuchen, wie Kohärenz beeinflusst werden kann.

Wenn ein LLM Textual content verarbeitet, betrachtet es eine feste Anzahl vorheriger Token – dies ist das „Kontextfenster“. Für GPT-3 umfasst dieses Kontextfenster etwa 2048 Token. Was passiert additionally, wenn wir versuchen, einen Textual content zu generieren, der länger als dieses Kontextfenster ist?

Das Modell müsste den Textual content in mehreren Blöcken generieren. Da sich das Modell jedoch an nichts außerhalb seines Kontextfensters „erinnert“, könnte es über diese Abschnitte hinweg an Kohärenz verlieren. Mit anderen Worten: Das Modell könnte beginnen, sich zu wiederholen, früheren Teilen des Textes zu widersprechen oder Inhalte zu generieren, die keinen Bezug zu dem Vorhergehenden zu haben scheinen.

Sehen wir uns ein Beispiel dafür an. Stellen Sie sich vor, wir versuchen, eine sehr lange Geschichte zu generieren.

# Making an attempt to generate a really lengthy story
response = openai.Completion.create(
mannequin="text-davinci-003",
immediate="As soon as upon a time, in a faraway land,",
max_tokens=3000, # Greater than the context window dimension
temperature=0.6
)

print(response.decisions[0].textual content.strip())

Im Code oben: max_tokens ist auf 3000 eingestellt, was größer ist als das Kontextfenster von GPT-3 von etwa 2048 Token. In der resultierenden Geschichte stellen Sie möglicherweise fest, dass die späteren Abschnitte der Geschichte weniger mit der anfänglichen Aufforderung verbunden sind, und es kann Fälle geben, in denen das Modell beginnt, bestimmte Elemente oder Ereignisse aus einem früheren Teil der Geschichte zu wiederholen.

Um solche Kohärenzprobleme zu reduzieren, besteht ein gängiger Ansatz darin, die Länge des generierten Texts so zu verwalten, dass er das Kontextfenster des Modells nicht überschreitet. Wenn die Generierung längerer Inhalte erforderlich ist, können Sie die Abschnitte manuell überprüfen und bearbeiten oder zusätzliche Strategien anwenden, um die Kontinuität des Kontexts sicherzustellen. Es wird jedoch immer noch schwierig sein, bei sehr langen Texten eine hohe Kohärenz aufrechtzuerhalten.

Denken Sie daran, dass große Sprachmodelle wie GPT-3.5 zwar leistungsstarke Instruments sind, die beeindruckende Ergebnisse liefern können, aber auch ihre Grenzen haben. Als Benutzer und Entwickler dieser Modelle ist es wichtig, diese Einschränkungen zu verstehen, um ihre Nutzung zu optimieren und die Erwartungen an ihre Fähigkeiten zu verwalten.

Im Bereich der KI gibt es immer Raum für Verbesserungen und Weiterentwicklung. Indem wir diese Einschränkungen verstehen, öffnen wir die Tür für Innovationen, erweitern die Grenzen des Möglichen und finden neue Lösungen für diese Herausforderungen. Wer weiß angesichts der rasanten Fortschritte in diesem Bereich, welche unglaublichen Fähigkeiten die nächste Technology von Sprachmodellen mit sich bringen wird!



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here