Revolutionierung der Text-zu-Bild-Synthese: Forscher der UC Berkeley nutzen große Sprachmodelle in einem zweistufigen Generierungsprozess für verbessertes räumliches und gesundes Denken

0
25


Jüngste Fortschritte bei der Textual content-zu-Bild-Generierung haben Diffusionsmodelle hervorgebracht, die äußerst realistische und vielfältige Bilder synthetisieren können. Doch trotz ihrer beeindruckenden Fähigkeiten benötigen Diffusionsmodelle wie Secure Diffusion häufig Hilfe bei Eingabeaufforderungen, die räumliches Denken oder logisches Denken erfordern, was zu Ungenauigkeiten in den erzeugten Bildern führt.

Um dieser Herausforderung zu begegnen, hat ein Forschungsteam der UC Berkeley und der UCSF einen neuartigen LLM-Grounded Diffusion (LMD)-Ansatz vorgeschlagen, der das schnelle Verständnis bei der Textual content-zu-Bild-Generierung verbessert. Sie haben Szenarien identifiziert, darunter Negation, Numeralität, Attributzuweisung und räumliche Beziehungen, in denen die stabile Diffusion im Vergleich zu LMD unzureichend ist.

Die Forscher haben eine kosteneffiziente Lösung gewählt, um den kostspieligen und zeitaufwändigen Prozess des Trainings großer Sprachmodelle (LLMs) und Diffusionsmodelle zu vermeiden. Sie integrierten handelsübliche eingefrorene LLMs in Diffusionsmodelle, was zu einem zweistufigen Generierungsprozess führte, der verbesserte räumliche und gesunde Denkfähigkeiten bietet.

In der ersten Stufe wird ein LLM durch kontextbezogenes Lernen so angepasst, dass es als textgesteuerter Layoutgenerator fungiert. Bei einer Bildaufforderung erstellt das LLM ein Szenenlayout, das aus Begrenzungsrahmen und entsprechenden Beschreibungen besteht. In der zweiten Stufe wird ein Diffusionsmodell anhand des generierten Layouts mithilfe eines neuartigen Controllers zur Generierung von Bildern gesteuert. In beiden Phasen werden eingefrorene, vorab trainierte Modelle ohne jegliche Parameteroptimierung für LLM- oder Diffusionsmodelle verwendet.

LMD bietet mehrere Vorteile, die über ein verbessertes sofortiges Verständnis hinausgehen. Es ermöglicht die dialogbasierte Mehrrunden-Szenenspezifikation, sodass Benutzer für jede Eingabeaufforderung zusätzliche Klarstellungen und Änderungen vornehmen können. Darüber hinaus kann LMD Eingabeaufforderungen in Sprachen verarbeiten, die vom zugrunde liegenden Diffusionsmodell nicht unterstützt werden. Durch die Integration eines LLM, das Mehrrundendialoge unterstützt, können Benutzer das LLM nach der ersten Layoutgenerierung abfragen und aktualisierte Layouts für die nachfolgende Bildgenerierung erhalten, wodurch Anfragen wie das Hinzufügen von Objekten oder das Ändern ihrer Standorte oder Beschreibungen erleichtert werden.

Darüber hinaus akzeptiert LMD nicht-englische Eingabeaufforderungen, indem es beim kontextbezogenen Lernen ein Beispiel für eine nicht-englische Eingabeaufforderung mit englischem Format und Hintergrundbeschreibung bereitstellt. Dadurch kann LMD Layouts mit englischen Beschreibungen generieren, selbst wenn die zugrunde liegenden Diffusionsmodelle die jeweilige Sprache nicht unterstützen.

Die Forscher validierten die Überlegenheit von LMD, indem sie es mit dem Basisdiffusionsmodell Secure Diffusion 2.1 verglichen, das LMD verwendet. Sie laden die Leser ein, ihre Arbeit für eine umfassende Bewertung und weitere Vergleiche zu erkunden.

Zusammenfassend stellt LMD einen neuartigen Ansatz dar, um die Einschränkungen von Diffusionsmodellen bei der genauen Befolgung von Eingabeaufforderungen, die räumliches Denken oder logisches Denken erfordern, zu beseitigen. Durch die Einbindung eingefrorener LLMs und den Einsatz eines zweistufigen Generierungsprozesses verbessert LMD das schnelle Verständnis bei Textual content-zu-Bild-Generierungsaufgaben erheblich. Es bietet zusätzliche Funktionen wie die dialogbasierte Szenenspezifikation und die Handhabung von Eingabeaufforderungen in nicht unterstützten Sprachen. Die Arbeit des Forschungsteams eröffnet neue Möglichkeiten zur Verbesserung der Genauigkeit und Vielfalt synthetisierter Bilder durch die Integration handelsüblicher eingefrorener Modelle.


Besuche die Artikel der UC Berkeley, Papier Und Github. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Niharika ist Praktikantin im Bereich technische Beratung bei Marktechpost. Sie studiert im dritten Jahr und macht derzeit ihren B.Tech am Indian Institute of Know-how (IIT) in Kharagpur. Sie ist eine äußerst enthusiastische Particular person mit großem Interesse an maschinellem Lernen, Datenwissenschaft und KI und eine begeisterte Leserin der neuesten Entwicklungen in diesen Bereichen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here