Angesichts der weit verbreiteten Einführung von KI-Instruments zur Inhaltserstellung ist es wichtig, ein potenzielles Risiko anzugehen, das sich auf die Zukunft großer Sprachmodelle (LLMs) auswirken könnte.
Sie sehen, LLMs stützen sich stark auf Daten aus dem Web, die überwiegend von Menschen erstellt werden. Mit der Zunahme von KI-generierten Inhalten besteht jedoch die Sorge, dass LLMs diese KI-generierten Daten letztendlich für das Coaching verwenden könnten, was zu Verzerrungen und Ungenauigkeiten in ihren Ergebnissen führen könnte.
Forscher renommierter Institutionen wie Cambridge, Oxford, Toronto und Imperial School beleuchten dieses Drawback in ihrem Forschungsbericht mit dem Titel „The Curse of Recursion: Coaching on Generated Knowledge Makes Fashions Overlook“.
Sie beschreiben ein besorgniserregendes Phänomen namens „Modellkollaps“, bei dem sich LLMs von der Realität lösen und durch ihre eigenen Ergebnisse korrumpiert werden.
Stellen Sie sich ein Szenario vor, in dem KI-generierte Inhalte zu den primären Trainingsdaten für LLMs werden. Mit der Zeit vergessen diese Modelle die wahre zugrunde liegende Datenverteilung, was zu einer ungenauen Darstellung der Realität führt. Die Daten, mit denen sie trainiert werden, werden so verunreinigt, dass sie keine Ähnlichkeit mehr mit Informationen aus der realen Welt haben.
Dies kann durch den zunehmenden Einsatz von Instruments der künstlichen Intelligenz möglich werden. Die weitverbreitete KI-Nutzung wird wahrscheinlich irgendwann dazu führen, dass KI-generierte Inhalte als Trainingsdaten in große Sprachmodelle eingespeist werden, was zu Ungenauigkeiten und Verzerrungen in der Ausgabe führt.
Wie kommt es dazu? Nun ja, alles läuft darauf hinaus, dass den Trainingsdaten die nötige Vielfalt und Komplexität fehlt, was dazu führt, dass das KI-Modell sich wiederholende oder unterdurchschnittliche Ergebnisse liefert.
Die Ursache für den Zusammenbruch des Modells ist nichts anderes als eine Rückkopplungsschleife, bei der das KI-Modell aus voreingenommenen oder begrenzten Daten lernt, was zu einem begrenzten und wenig aufregenden Ausgaberaum führt.
Dieses Drawback wurde bei verschiedenen großen Sprachmodellen sowie bei Variations-Autoencodern und Gaußschen Mischungsmodellen beobachtet. Je mehr sie sich auf KI-generierte Daten verlassen, desto mehr entfernen sie sich von der echten Darstellung unserer Welt.
Um dieses Drawback anzugehen, schlagen die Forscher intelligentere Trainingsansätze für LLMs vor. Ein solcher Ansatz ist der „First-Mover-Vorteil“, der die Wahrung des Zugriffs auf die ursprünglich vom Menschen erstellte Datenquelle betont. Vereinfacht ausgedrückt bedeutet dies, sicherzustellen, dass LLMs kontinuierlich mit authentischen, von Menschen erstellten Inhalten in Berührung kommen.
Allerdings stellt die Unterscheidung zwischen KI-generierten und von Menschen produzierten Daten eine Herausforderung dar. Aus diesem Grund betont das Forschungspapier die Notwendigkeit einer „gemeinschaftsweiten Koordination“. Es erfordert die Zusammenarbeit verschiedener an der LLM-Erstellung und -Bereitstellung beteiligter Stakeholder, um wichtige Informationen über die Datenquellen auszutauschen.
Aber warum so viel Aufhebens? Wenn wir diese Herausforderung nicht bewältigen, könnte die Schulung neuerer Versionen von LLMs zu einer Herkulesaufgabe werden. Der Zugriff auf Daten, die vor der Masseneinführung der KI-Technologie gesammelt wurden, oder der direkte Zugriff auf Daten, die von Menschen in großem Maßstab generiert wurden, könnte eingeschränkt sein.
Daher ist es von entscheidender Bedeutung, dieses Drawback anzugehen und Wege zu finden, um die Verbindung zwischen LLMs und der Realität aufrechtzuerhalten.
Die Aufrechterhaltung des Zugriffs auf von Menschen erstellte Originaldaten und die Förderung der Zusammenarbeit zwischen den an der LLM-Entwicklung Beteiligten werden von entscheidender Bedeutung sein, um genaue und zuverlässige KI-generierte Inhalte sicherzustellen.
Auf diese Weise können wir sicherstellen, dass KI-generierte Inhalte vertrauenswürdig und korrekt bleiben und ein wahrheitsgetreues Abbild unserer Welt sind.
Indem wir mit der realen Welt in Verbindung bleiben und den Zugriff auf von Menschen erstellte Inhalte aufrechterhalten, können wir die Zuverlässigkeit und Authentizität von KI-generierten Inhalten langfristig verbessern.
Schließen Sie sich der KI-Revolution an! Folgen Sie uns für atemberaubende Technologie, fesselnde Einblicke und exklusive Updates.