Google AI stellt Imagen Editor und EditBench vor, um textgesteuertes Bild-Inpainting zu verbessern und zu bewerten

0
25


Das Interesse an Textual content-zu-Bild-Konvertern ist in letzter Zeit gestiegen. Diese generativen Modelle sind überraschend nützlich, auch wenn sie manchmal beim ersten Versuch zu falschen Ergebnissen führen, insbesondere für Kunden mit spezielleren kreativen oder gestalterischen Anforderungen. Die textgesteuerte Bildbearbeitung kann den Bilderstellungsprozess verbessern, indem sie eine interaktive Verfeinerung ermöglicht. Eine erhebliche Schwierigkeit besteht darin, Änderungen zu generieren, die Textaufforderungen entsprechen und mit Eingabebildern kompatibel sind. Forscher von Good haben Imagen Editor entwickelt, ein kaskadiertes Diffusionsmodell zum Inpainting mit Textanweisungen.

Imagen Editor kann Änderungen vornehmen, die die Textaufforderungen genau wiedergeben, indem es Objektdetektoren verwendet, um während des Trainings Inpainting-Masken vorzuschlagen. Imagen Editor kann selbst die feinsten Merkmale im Eingabebild erfassen, indem die kaskadierte Pipeline auf das ursprüngliche hochauflösende Bild konditioniert wird. Um die qualitative und quantitative Bewertung zu verbessern, stellen Google-Forscher EditBench zur Verfügung, einen standardisierten Benchmark für textgesteuertes Bild-Inpainting. EditBench analysiert Inpainting-Änderungen, indem es Objekte, Eigenschaften und Szenen in realen und synthetischen Bildern untersucht. Eine eingehende menschliche Auswertung auf EditBench zeigt, dass die Objektmaskierung während des Trainings die Textual content-Bild-Ausrichtung deutlich verbessert, wobei Imagen Editor gegenüber DALL-E 2 und Steady Diffusion die Nase vorn hat. Zusammengenommen eignen sich diese Modelle besser für die Objektwiedergabe als für die Textwiedergabe und verarbeiten Materials-, Farb- und Größenattribute besser als Zähl- und Formattribute.

Bildbearbeiter

Verwenden Sie zum Ändern von Bildern den Imagen Editor, ein diffusionsbasiertes Modell, das speziell für Imagen optimiert wurde. Es strebt nach genaueren Darstellungen sprachlicher Eingaben, granularer Befehle und qualitativ hochwertigen Ausgaben. Das zu ändernde Bild, eine Binärmaske zur Identifizierung des Bearbeitungsbereichs und eine Textaufforderung sind die drei Eingaben, die Imagen Editor verwendet, um die Ausgabebeispiele zu bestimmen.

Mit dem Bildeditor können Benutzer anhand einer Maske und einer Reihe von Anweisungen gezielte Änderungen an bestimmten Bildbereichen vornehmen. Das Modell berücksichtigt die Ziele des Benutzers und nimmt realistische Anpassungen am Bild vor. Picture Editor ist ein textgesteuerter Bildeditor, der umfassende sprachliche Darstellungen mit detaillierter Steuerung verbindet, um qualitativ hochwertige Ergebnisse zu erzielen. Imagen Editor ist eine erweiterte Model von Imagen, die ein kaskadiertes Diffusionsmodell zur Feinabstimmung des textgesteuerten Bild-Inpaintings verwendet. Mithilfe von drei Faltungs-Downsampling-Bildkodierern stellt Imagen Editor mehr Bild- und Maskenkontext für jede Diffusionsstufe bereit.

Das zuverlässige textgesteuerte Bild-Inpainting von Picture Editor basiert auf drei grundlegenden Methoden:

Imagen Editor verwendet eine Maskierungsrichtlinie für Objektdetektoren mit einem Objektdetektormodul, um während des Trainings Objektmasken anstelle der von früheren Inpainting-Modellen verwendeten zufälligen Field- und Strichmasken zu generieren.

Imagen Editor verbessert die hochauflösende Bearbeitung, indem es während des Trainings und der Inferenz eine kanalweise Verkettung des Eingabebilds und der Maske in voller Auflösung erfordert.

Um Daten in Richtung einer bestimmten Konditionierung, in diesem Fall Textaufforderungen, zu beeinflussen, verwenden Forscher bei der Inferenz die klassifikatorfreie Führung (CFG). CFG interpoliert zwischen den Vorhersagen der konditionierten und unkonditionierten Modelle, um eine hohe Präzision beim textgesteuerten Bild-Inpainting zu erreichen.

Eine große Schwierigkeit beim textgesteuerten Bild-Inpainting besteht darin, sicherzustellen, dass die generierten Ausgaben den Texteingabeaufforderungen entsprechen.

EditBench

EditBench nutzt 240 Fotos, um einen neuen Customary für textgesteuertes Bild-Inpainting zu schaffen. Jedem Bild ist eine Maske zugeordnet, die den Bereich angibt, der während des Inpainting-Vorgangs geändert wird. Um den Benutzern die Angabe der Änderung zu erleichtern, geben die Forscher für jedes Bild-Masken-Paar drei Textaufforderungen aus. EditBench ist ein von Hand kuratierter Benchmark für die Textual content-zu-Bild-Erstellung, der wie DrawBench und PartiPrompts versucht, verschiedene Kategorien und Schwierigkeitsfaktoren beim Sammeln von Bildern zu erfassen. Eine gleiche Aufteilung natürlicher Fotos, die aus bereits vorhandenen Pc-Imaginative and prescient-Datensätzen ausgewählt wurden, und synthetischen Bildern, die von in EditBench enthaltenen Textual content-zu-Bild-Modellen erstellt wurden.

Der von EditBench unterstützte Bereich an Maskengrößen ist umfangreich und umfasst sogar große Masken, die bis an die Bildränder reichen. EditBench-Fragen sind so strukturiert, dass sie die Leistung von Modellen anhand einer Vielzahl feinkörniger Particulars in drei Kategorien bewerten:

  1. Attribute (wie Materials, Farbe, Type, Größe und Anzahl)
  2. Objekttypen (z. B. häufig, selten und Textwiedergabe)
  3. Szenen (z. B. drinnen, draußen, realistisch oder gemalt)

Auswertung

Die Textual content-Bild-Ausrichtung und die Bildqualität auf EditBench werden vom Forschungsteam strengen menschlichen Exams unterzogen. Darüber hinaus vergleichen und kontrastieren sie menschliche Vorlieben mit computergestützten Messungen. Sie führen eine Analyse von vier Modellen durch:

  • Bildbearbeiter (IM)
  • Imagen EditorRM (IMRM)
  • Stabile Diffusion (SD)
  • DALL-E 2 (DL2)

Um die Vorteile der Objektmaskierung während des Trainings zu bewerten, vergleichen Forscher Imagen Editor mit Imagen EditorRM. Um unsere Arbeit mit denen anderer ins Verhältnis zu setzen und die Einschränkungen des aktuellen Stands der Technik umfassender zu untersuchen, haben wir Bewertungen von Steady Diffusion und DALL-E 2 einbezogen.

Etwas zusammenfassen

Die bereitgestellten Bildbearbeitungsmodelle sind Teil einer größeren Familie generativer Modelle, die bisher unzugängliche Möglichkeiten bei der Inhaltsproduktion ermöglichen. Sie bergen jedoch auch das Risiko, Inhalte zu generieren, die dem Einzelnen oder der Gesellschaft als Ganzes schaden. In der Sprachmodellierung ist es allgemein anerkannt, dass Textgenerierungsmodelle unbeabsichtigt soziale Vorurteile widerspiegeln und verstärken können, die in ihren Trainingsdaten vorhanden sind. Der Imagen-Editor ist eine verbesserte Model des textgesteuerten Bild-Inpaintings von Imagen. Imagen Editor basiert auf einer Objektmaskierungsrichtlinie für das Coaching und dem Hinzufügen neuer Faltungsebenen für die hochauflösende Bearbeitung. EditBench ist ein groß angelegter, systematischer Benchmark für das Inpainting von Bildern basierend auf Textbeschreibungen. EditBench führt umfassende Exams attributbasierter, objektbasierter und szenenbasierter Inpainting-Systeme durch.


Besuche die Papier Und Google-Blog. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here