Die Modellgröße und die Inferenzarbeitsbelastung sind dramatisch gestiegen, da große Diffusionsmodelle für die Bildproduktion immer häufiger eingesetzt werden. Aufgrund von Ressourcenbeschränkungen ist die Optimierung der Leistung für die geräteinterne ML-Inferenz in mobilen Kontexten ein heikler Balanceakt. Aufgrund des erheblichen Speicher- und Rechenaufwands dieser Modelle stellt die Ausführung der Inferenz von Giant Diffusion Fashions (LDMs) auf Geräten noch größere Hürden dar, insbesondere im Hinblick auf die Notwendigkeit von Kosteneffizienz und Benutzerschutz.
Die schnelle Erstellung und weit verbreitete Verwendung von Grundlagenmodellen hat die künstliche Intelligenz völlig verändert. Aufgrund ihrer Vielseitigkeit und Fähigkeit, fotorealistische Bilder zu erzeugen, haben große Diffusionsmodelle große Aufmerksamkeit auf sich gezogen. Reduzierte Serverkosten, Offline-Funktionen und verbesserte Privatsphäre der Benutzer sind nur einige der Vorteile der lokalen Bereitstellung dieser Modelle auf dem Gerät des Benutzers. Aufgrund begrenzter Rechen- und Speicherressourcen auf Geräten verfügen typische Modelle mit großer Diffusion über mehr als 1 Milliarde Parameter, was zu Schwierigkeiten führt. Forscher von Google bieten eine Reihe von Modifikationen für die Implementierung großer Diffusionsmodelle an, die die bislang schnellste Inferenzlatenz auf Mobilgeräten mit GPUs ermöglichen. Diese Updates verbessern das allgemeine Benutzererlebnis auf verschiedenen Geräten und erweitern den Einsatzbereich generativer KI.
Aufgrund ihrer vielen Vorteile gegenüber serverbasierten Methoden, wie z. B. geringere Latenz, erhöhter Datenschutz und größere Skalierbarkeit, hat die Beschleunigung der Modellinferenz auf dem Gerät in letzter Zeit großes Interesse auf sich gezogen. Die Komplexität der beim Deep Studying häufig verwendeten Softmax-Operation hat zu Optimierungsbemühungen geführt, die zu verschiedenen Beschleunigungsstrategien geführt haben. Winograd Convolution wurde entwickelt, um die Effizienz der Faltungsberechnung durch Minimierung der Anzahl der erforderlichen Multiplikationen zu verbessern, was besonders für Grafikprozessoren (GPUs) hilfreich ist.
Der weit verbreitete Erfolg und die Akzeptanz des Transformer-Designs haben Forschungen zur Beschleunigung des Aufmerksamkeitsmechanismus angeregt. Reformer verwendet eine spärliche Approximation, um die Rechenkosten zu senken, während andere Arbeiten Low-Rank- oder eine Kombination von Approximationstechniken verwenden. FlashAttention hingegen ist ein präziser Aufmerksamkeitsalgorithmus, der Hardwarekonfigurationen berücksichtigt, um eine bessere Leistung zu erzielen.
Der Hauptschwerpunkt liegt auf der Herausforderung, aus schriftlichen Beschreibungen durch den Einsatz massiver Diffusionsmodelle visuelle Darstellungen zu erstellen. Auch wenn sich diese Erklärung auf die Funktionsweise der vorgeschlagenen Verbesserungen mit der Steady Diffusion-Architektur konzentriert, ist es wichtig zu beachten, dass diese Optimierungen leicht auf andere große Diffusionsmodelle übertragbar sind. Rückschlüsse aus Textual content erfordern eine zusätzliche Konditionierung auf der Grundlage der gewünschten Textbeschreibung, um den umgekehrten Diffusionsprozess zu steuern.
Der vom Denoiser-Modell im LDM häufig verwendete Aufmerksamkeitsblock stellt einen Hauptbereich für Verbesserungen dar. Das Modell kann relevante Informationen reduzieren, indem es den Aufmerksamkeitsblöcken in der Eingabe mehr Gewicht verleiht. Die Aufmerksamkeitsmodule können auf verschiedene Weise optimiert werden; Forscher nutzen oft nur eine der beiden unten aufgeführten Optimierungen, je nachdem, welche die besten Ergebnisse liefert.
Die erste Optimierung, teilweise verschmolzener Softmax genannt, reduziert die Speichermenge, die während des Softmax des Aufmerksamkeitsmoduls gelesen und geschrieben wird, indem sie mit der Matrixmultiplikation zusammengeführt wird. Die andere Optimierung verwendet eine I/O-fähige präzise Aufmerksamkeitsmethode namens FlashAttention. Mit diesem Ansatz wird die Anzahl der Speicherzugriffe mit hoher Bandbreite von der GPU reduziert, was ihn zu einer hervorragenden Wahl für Anwendungen mit begrenzter Speicherbandbreite macht. Es wird eine große Anzahl an Registern benötigt und sie stellten fest, dass die Methode nur mit bestimmten SRAM-Größen funktioniert. Daher verwenden sie diese Methode nur auf einer Teilmenge von GPUs für Aufmerksamkeitsmatrizen einer bestimmten Größe.
Darüber hinaus stellte das Group fest, dass die Fusionsfenster für häufig verwendete Schichten und Einheiten in LDMs auf einer mobilen GPU wesentlich größer sein müssen als das, was derzeit von kommerziell erhältlichen GPU-beschleunigten ML-Inferenz-Engines verfügbar ist. Angesichts der Einschränkungen standardmäßiger Fusionsregeln entwickelten sie benutzerdefinierte Implementierungen, die eine größere Vielfalt neuronaler Operatoren ausführen können. Ihre Aufmerksamkeit richtete sich auf zwei Teilfelder: die Gaussian Error Linear Unit (GELU) und die Gruppennormalisierungsschicht.
Einschränkungen bei der Größe der Modelldatei, ein enormer Bedarf an Laufzeitspeicher und eine verlängerte Inferenzlatenz haben sich alle als erhebliche Hindernisse bei der Durchführung von ML-Inferenzen großer Modelle auf dem Gerät selbst erwiesen. Die Forscher erkannten, dass die Nutzung der Speicherbandbreite das Haupthindernis darstellte. Daher konzentrierten sie sich auf die Verbesserung der Speicherbandbreitennutzung und gleichzeitig auf die Beibehaltung eines gesunden Verhältnisses von ALU/Speichereffizienz. Zusammengenommen ermöglichten die von ihnen demonstrierten Optimierungen die Ausführung großer Diffusionsmodelle auf einer Vielzahl von Geräten mit rekordverdächtigen Latenzwerten. Dank dieser Verbesserungen wird die Anwendbarkeit des Modells erweitert und das Benutzererlebnis auf einer Vielzahl von Geräten verbessert.
Besuche die Papier Und Google AI-Artikel. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.