Lernen Sie Paella kennen: Ein neues KI-Modell ähnlich der Diffusion, das qualitativ hochwertige Bilder viel schneller erzeugen kann als durch die Verwendung einer stabilen Diffusion

0
22


In den letzten zwei bis drei Jahren hat die Qualität und Quantität der Forschung zur Generierung von Bildern aus Textual content mithilfe künstlicher Intelligenz (KI) phänomenal zugenommen. Eine der bahnbrechendsten und revolutionärsten Arbeiten auf diesem Gebiet bezieht sich auf hochmoderne generative Modelle, sogenannte Diffusionsmodelle. Diese Modelle haben die Artwork und Weise, wie Textbeschreibungen verwendet werden können, um qualitativ hochwertige Bilder zu erzeugen, indem sie die Leistungsfähigkeit von Deep-Studying-Algorithmen nutzen, völlig verändert. Darüber hinaus gibt es neben der Diffusion eine Reihe weiterer leistungsstarker Techniken, die einen spannenden Weg bieten, aus Texteingaben nahezu fotorealistische visuelle Inhalte zu generieren. Die außergewöhnlichen Ergebnisse dieser Spitzentechnologien sind jedoch mit gewissen Einschränkungen verbunden. Eine Reihe neuer generativer KI-Technologien basieren auf Diffusionsmodellen, die komplizierte Architekturen und erhebliche Rechenressourcen für Coaching und Bilderzeugung erfordern. Diese fortschrittlichen Methoden reduzieren auch die Inferenzgeschwindigkeit und machen sie für eine Echtzeitimplementierung unpraktisch. Darüber hinaus steht die Komplexität dieser Techniken in direktem Zusammenhang mit den Fortschritten, die sie ermöglichen, was für die breite Öffentlichkeit eine Herausforderung darstellt, das Innenleben dieser Modelle zu verstehen, und dazu führt, dass sie als Black-Field-Modelle wahrgenommen werden.

Um die zuvor genannten Bedenken auszuräumen, hat ein Forscherteam der Technischen Hochschule Ingolstadt und Wand Applied sciences, Deutschland, eine neuartige Technik zur textbedingten Bilderzeugung vorgeschlagen. Diese modern Technik ähnelt der Diffusion, erzeugt jedoch viel schneller hochwertige Bilder. Die Bildabtastphase dieses auf Faltung basierenden Modells kann mit nur 12 Schritten durchgeführt werden und liefert dennoch eine außergewöhnliche Bildqualität. Dieser Ansatz zeichnet sich durch seine bemerkenswerte Einfachheit und reduzierte Bilderzeugungsgeschwindigkeit aus und ermöglicht es den Benutzern, das Modell zu konditionieren und die Vorteile zu nutzen, die den bestehenden hochmodernen Techniken fehlen. Die inhärente Einfachheit der vorgeschlagenen Technik hat ihre Zugänglichkeit erheblich verbessert und es Personen mit unterschiedlichem Hintergrund ermöglicht, diese Textual content-zu-Bild-Technologie leicht zu verstehen und umzusetzen. Um ihre Methodik durch experimentelle Auswertungen zu validieren, trainierten die Forscher zusätzlich ein textbedingtes Modell namens „Paella“ mit sage und schreibe einer Milliarde Parametern. Das Crew hat außerdem seine Code- und Modellgewichte unter der MIT-Lizenz als Open-Supply-Lösung bereitgestellt, um die Forschung rund um seine Arbeit zu fördern.

Ein Diffusionsmodell durchläuft einen Lernprozess, bei dem es nach und nach unterschiedliche Rauschpegel aus jeder Trainingsinstanz eliminiert. Wenn während der Inferenz reines Rauschen präsentiert wird, generiert das Modell ein Bild, indem es das Rauschen über mehrere hundert Schritte iterativ subtrahiert. Die von den deutschen Forschern entwickelte Technik orientiert sich stark an diesen Prinzipien der Diffusionsmodelle. Wie Diffusionsmodelle entfernt Paella unterschiedlich starkes Rauschen von Token, die ein Bild darstellen, und verwendet sie, um ein neues Bild zu erzeugen. Das Modell wurde anhand von 900 Millionen Bild-Textual content-Paaren aus dem ästhetischen Datensatz LAION-5B trainiert. Paella nutzt eine vorab trainierte Encoder-Decoder-Architektur, die auf einem Faltungs-Neuronalen Netzwerk basiert und die Fähigkeit hat, ein 256×256-Bild mit 256 Token darzustellen, die aus einem Satz von 8.192 Token ausgewählt wurden, die während des Vortrainings gelernt wurden. Um ihrem Beispiel während der Trainingsphase mehr Rauschen zu verleihen, haben die Forscher auch einige zufällig ausgewählte Token in diese Liste aufgenommen.

Um Texteinbettungen basierend auf der Textbeschreibung des Bildes zu generieren, nutzten die Forscher das CLIP-Modell (Contrastive Language-Picture Pretraining), das Verbindungen zwischen Bildern und Textbeschreibungen herstellt. Anschließend wurde die U-Web-CNN-Architektur verwendet, um das Modell darin zu trainieren, den vollständigen Satz ursprünglicher Token zu generieren, wobei die Texteinbettungen und Token verwendet wurden, die in früheren Iterationen generiert wurden. Dieser iterative Prozess wurde zwölfmal wiederholt, wobei bei jeder Wiederholung nach und nach ein kleinerer Teil der zuvor generierten Token ersetzt wurde. Mithilfe der verbleibenden generierten Token reduzierte das U-Web das Rauschen bei jedem Schritt schrittweise. Während der Inferenz erzeugte CLIP eine Einbettung basierend auf einer gegebenen Textaufforderung, und das U-Web rekonstruierte alle Token über 12 Schritte für einen zufällig ausgewählten Satz von 256 Token. Schließlich nutzte der Decoder die generierten Token, um ein Bild zu erzeugen.

Um die Wirksamkeit ihrer Methode zu bewerten, verwendeten die Forscher die Fréchet-Inception-Distance-Metrik (FID), um die Ergebnisse des Paella-Modells und des Steady-Diffusion-Modells zu vergleichen. Obwohl die Ergebnisse die stabile Diffusion leicht begünstigten, wies Paella einen deutlichen Geschwindigkeitsvorteil auf. Diese Studie hebt sich von früheren Bemühungen ab, da sie sich auf eine völlige Neukonfiguration der Architektur konzentrierte, die zuvor nicht berücksichtigt wurde. Zusammenfassend lässt sich sagen, dass Paella mit einer kleineren Modellgröße und weniger Stichprobenschritten im Vergleich zu vorhandenen Modellen qualitativ hochwertige Bilder erzeugen und dennoch nennenswerte Ergebnisse erzielen kann. Das Forschungsteam betont die Zugänglichkeit seines Ansatzes, der einen einfachen Aufbau bietet, der von Personen mit unterschiedlichem Hintergrund, auch aus nichttechnischen Bereichen, problemlos übernommen werden kann, da der Bereich der generativen KI mit der Zeit immer mehr Interesse weckt.


Besuche die Papier Und Referenzartikel. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Khushboo Gupta ist Beratungspraktikant bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Expertise (IIT) in Goa. Ihre Leidenschaft gilt den Bereichen maschinelles Lernen, Verarbeitung natürlicher Sprache und Webentwicklung. Es macht ihr Spaß, mehr über den technischen Bereich zu lernen, indem sie an verschiedenen Herausforderungen teilnimmt.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here