ChatGPT ist mittlerweile zu einem wesentlichen Bestandteil unseres täglichen Lebens geworden. Die meisten von uns nutzen es täglich, um alltägliche Aufgaben zu lösen oder Anleitungen zur Bewältigung komplexer Probleme zu erhalten, Empfehlungen für Entscheidungen zu erhalten usw. Noch wichtiger ist, dass KI-gestütztes Schreiben für die Mehrheit zur Norm geworden ist, und wir haben sogar begonnen, die Auswirkungen zu sehen schon als Unternehmen begannen, ihre Texter durch ChatGPT zu ersetzen.
Während sich GPT-Modelle als nützliche Hilfsmittel erwiesen haben, haben sie auch Herausforderungen mit sich gebracht, wie etwa die Verbreitung von Faux Information und technologiegestütztem Plagiat. Fälle, in denen KI-generierte wissenschaftliche Zusammenfassungen Wissenschaftler täuschen, haben zu einem Vertrauensverlust in wissenschaftliche Erkenntnisse geführt. Daher sieht es so aus, als ob die Erkennung von KI-generiertem Textual content im weiteren Verlauf von entscheidender Bedeutung sein wird. Dies ist jedoch nicht einfach, da es grundlegende Schwierigkeiten mit sich bringt und der Fortschritt bei den Erkennungsmethoden hinter der schnellen Weiterentwicklung der KI selbst zurückbleibt.
Bestehende Methoden wie störungsbasierte Ansätze oder rang-/entropiebasierte Methoden schlagen häufig fehl, wenn die Token-Wahrscheinlichkeit nicht angegeben wird, wie im Fall von ChatGPT. Darüber hinaus stellt die mangelnde Transparenz bei der Entwicklung leistungsstarker Sprachmodelle eine zusätzliche Herausforderung dar. Um GPT-generierten Textual content effektiv zu erkennen und den Fortschritten von LLMs gerecht zu werden, besteht ein dringender Bedarf an einer robusten Erkennungsmethodik, die erklärbar ist und sich an kontinuierliche Aktualisierungen und Verbesserungen anpassen lässt.
Daher steigt derzeit der Bedarf an einer robusten KI-generierten Texterkennungsmethode. Wir wissen jedoch, dass LLMs schneller Fortschritte machen als die Erkennungsmethoden. Wie können wir additionally eine Methode entwickeln, die mit der Weiterentwicklung der LLMs Schritt halten kann? Zeit zum Treffen DNA-GPT.
DNA-GPT befasst sich mit zwei Szenarien: weiße Kiste Erkennung, bei der Zugriff auf die Modellausgabe-Token-Wahrscheinlichkeit verfügbar ist, und Flugschreiber Erkennung, wenn ein solcher Zugriff nicht verfügbar ist. Betrachtet man beide Fälle, DNA-GPT zielt darauf ab, umfassende Lösungen anzubieten.
DNA-GPT baut auf der Beobachtung auf, dass LLMs dazu neigen, sich wiederholende n-Gramme früherer Generationen zu entschlüsseln, während der von Menschen geschriebene Textual content weniger wahrscheinlich entschlüsselt wird. Die theoretische Analyse konzentriert sich auf die Möglichkeit von KI-generiertem Textual content im Hinblick auf die True-Constructive-Charge (TPR) und die False-Constructive-Charge (FPR), was der aktuellen Debatte über die Erkennbarkeit eine orthogonale Perspektive hinzufügt.
Es wird davon ausgegangen, dass jedes KI-Modell seine eigene DNA besitzt, die sich entweder in seiner Tendenz, vergleichbare N-Gramme zu erzeugen, oder in der Type seiner Wahrscheinlichkeitskurve manifestieren kann. Dann wird die Erkennungsaufgabe als binäre Klassifizierungsaufgabe definiert, bei der das Ziel bei gegebener Textsequenz S und einem bestimmten Sprachmodell LM wie GPT-4 darin besteht, zu klassifizieren, ob S vom LM generiert oder von Menschen geschrieben wurde.
DNA-GPT ist ein Zero-Shot-Erkennungsalgorithmus für von GPT-Modellen generierte Texte, der sowohl Black-Field- als auch White-Field-Szenarien abdeckt. Die Wirksamkeit der Algorithmen wird anhand der fünf fortschrittlichsten LLMs anhand von fünf Datensätzen validiert. Darüber hinaus wird die Robustheit des Algorithmus gegen Angriffe auf nicht-englische Texte und überarbeitete Texte getestet. Darüber hinaus bietet die Erkennungsmethode die Möglichkeit zur Modellbeschaffung und ermöglicht so die Identifizierung des spezifischen Sprachmodells, das für die Textgenerierung verwendet wird. Endlich, DNA-GPT enthält Bestimmungen zur Bereitstellung erklärbarer Beweise für Entdeckungsentscheidungen.
Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Ekrem Çetinkaya erhielt seinen B.Sc. im Jahr 2018 und M.Sc. im Jahr 2019 von der Ozyegin-Universität, Istanbul, Türkiye. Er schrieb seinen M.Sc. Diplomarbeit über Bildrauschen mithilfe tiefer Faltungsnetzwerke. Derzeit strebt er einen Ph.D. an. Abschluss an der Universität Klagenfurt, Österreich, und Arbeit als Forscher im ATHENA-Projekt. Seine Forschungsinteressen umfassen Deep Studying, Pc Imaginative and prescient und Multimedia-Netzwerke.