Pc verfügen in Bezug auf Bilder über zwei bemerkenswerte Fähigkeiten: Sie können sie sowohl identifizieren als auch neu generieren. Historisch gesehen waren diese Funktionen getrennt, ähnlich den unterschiedlichen Handlungen eines Kochs, der intestine darin ist, Gerichte zu kreieren (Technology), und eines Genießers, der intestine darin ist, Gerichte zu probieren (Anerkennung).
Dennoch kommt man nicht umhin, sich zu fragen: Was wäre nötig, um eine harmonische Verbindung zwischen diesen beiden unterschiedlichen Fähigkeiten herbeizuführen? Sowohl Koch als auch Genießer teilen ein gemeinsames Verständnis für den Geschmack der Speisen. Ebenso erfordert ein einheitliches Bildverarbeitungssystem ein tiefes Verständnis der visuellen Welt.
Jetzt haben Forscher im Pc Science and Synthetic Intelligence Laboratory (CSAIL) des MIT ein System darauf trainiert, auf die fehlenden Teile eines Bildes zu schließen, eine Aufgabe, die ein tiefes Verständnis des Bildinhalts erfordert. Beim erfolgreichen Ausfüllen der Lücken wird das System, bekannt als Maskierter generativer Encoder (MAGE) erreicht gleichzeitig zwei Ziele: die genaue Identifizierung von Bildern und die Erstellung neuer Bilder mit verblüffender Ähnlichkeit mit der Realität.
Dieses Twin-Objective-System ermöglicht unzählige potenzielle Anwendungen, wie die Objektidentifizierung und -klassifizierung in Bildern, schnelles Lernen aus Minimalbeispielen, die Erstellung von Bildern unter bestimmten Bedingungen wie Textual content oder Unterricht und die Verbesserung vorhandener Bilder.
Im Gegensatz zu anderen Techniken arbeitet MAGE nicht mit Rohpixeln. Stattdessen werden Bilder in sogenannte „semantische Token“ umgewandelt, bei denen es sich um kompakte, aber dennoch abstrahierte Versionen eines Bildabschnitts handelt. Stellen Sie sich diese Spielsteine als Mini-Puzzleteile vor, die jeweils einen 16×16 großen Ausschnitt des Originalbildes darstellen. So wie Wörter Sätze bilden, erstellen diese Token eine abstrahierte Model eines Bildes, die für komplexe Verarbeitungsaufgaben verwendet werden kann, während die Informationen im Originalbild erhalten bleiben. Ein solcher Tokenisierungsschritt kann in einem selbstüberwachten Rahmen trainiert werden, sodass ein Vortraining für große Bilddatensätze ohne Beschriftungen möglich ist.
Jetzt beginnt die Magie, wenn MAGE die „maskierte Token-Modellierung“ verwendet. Es versteckt zufällig einige dieser Token, wodurch ein unvollständiges Puzzle entsteht, und trainiert dann ein neuronales Netzwerk, um die Lücken zu füllen. Auf diese Weise lernt es, die Muster in einem Bild zu verstehen (Bilderkennung) und neue zu erzeugen (Bildgenerierung).
„Ein bemerkenswerter Teil von MAGE ist seine variable Maskierungsstrategie während des Vortrainings, die es ihm ermöglicht, innerhalb desselben Programs entweder für die Aufgabe, die Bilderzeugung oder die Erkennung zu trainieren“, sagt Tianhong Li, Doktorand in Elektrotechnik und Informatik am MIT , ein CSAIL-Companion und Hauptautor von a Papier über die Forschung. „Die Fähigkeit von MAGE, im ‚Token-Raum‘ statt im ‚Pixel-Raum‘ zu arbeiten, führt zu einer klaren, detaillierten und qualitativ hochwertigen Bilderzeugung sowie semantisch reichhaltigen Bilddarstellungen. Dies könnte hoffentlich den Weg für fortschrittliche und integrierte Pc-Imaginative and prescient-Modelle ebnen.“
Neben der Fähigkeit, realistische Bilder von Grund auf zu generieren, ermöglicht MAGE auch die bedingte Bildgenerierung. Benutzer können bestimmte Kriterien für die Bilder angeben, die MAGE generieren soll, und das Device erstellt dann das entsprechende Bild. Es ist auch in der Lage, Bildbearbeitungsaufgaben durchzuführen, z. B. Elemente aus einem Bild zu entfernen und gleichzeitig ein realistisches Erscheinungsbild beizubehalten.
Erkennungsaufgaben sind eine weitere Stärke von MAGE. Mit seiner Fähigkeit, große, unbeschriftete Datensätze vorab zu trainieren, kann es Bilder nur anhand der erlernten Darstellungen klassifizieren. Darüber hinaus zeichnet es sich durch das Wenig-Schuss-Lernen aus und erzielt beeindruckende Ergebnisse bei großen Bilddatensätzen wie ImageNet mit nur einer Handvoll beschrifteter Beispiele.
Die Bestätigung der Leistung von MAGE warfare beeindruckend. Einerseits stellte es neue Rekorde bei der Generierung neuer Bilder auf und übertraf die Vorgängermodelle mit einer deutlichen Verbesserung. Bei den Erkennungsaufgaben lag MAGE dagegen an der Spitze und erreichte eine Genauigkeit von 80,9 Prozent bei der linearen Sondierung und eine 10-Schuss-Genauigkeit von 71,9 Prozent bei ImageNet (das bedeutet, dass Bilder in 71,9 Prozent der Fälle korrekt identifiziert wurden, obwohl jeweils nur 10 beschriftete Beispiele vorhanden waren). Klasse).
Trotz seiner Stärken erkennt das Forschungsteam an, dass MAGE noch in Arbeit ist. Der Prozess der Umwandlung von Bildern in Token führt zwangsläufig zu einem gewissen Informationsverlust. Sie sind daran interessiert, Möglichkeiten zu erkunden, Bilder zu komprimieren, ohne dass wichtige Particulars in zukünftigen Arbeiten verloren gehen. Das Workforce beabsichtigt auch, MAGE an größeren Datensätzen zu testen. Zukünftige Untersuchungen könnten das Coaching von MAGE auf größeren unbeschrifteten Datensätzen umfassen, was möglicherweise zu einer noch besseren Leistung führt.
„Es warfare schon lange ein Traum, Bilderzeugung und Bilderkennung in einem einzigen System zu erreichen. MAGE ist eine bahnbrechende Forschung, die die Synergie dieser beiden Aufgaben erfolgreich nutzt und den neuesten Stand der Technik in einem einzigen System erreicht“, sagt Huisheng Wang, leitender Software program-Ingenieur für Menschen und Interaktionen im Bereich Forschung und Maschinenintelligenz Abteilung bei Google, der an der Arbeit nicht beteiligt warfare. „Dieses modern System hat vielfältige Anwendungsmöglichkeiten und hat das Potenzial, viele zukünftige Arbeiten im Bereich Pc Imaginative and prescient zu inspirieren.“
Li schrieb das Papier zusammen mit Dina Katabi, der Thuan-und-Nicole-Pham-Professorin an der MIT-Abteilung für Elektrotechnik und Informatik und CSAIL-Hauptforscherin; Huiwen Chang, leitender Forschungswissenschaftler bei Google; Shlok Kumar Mishra, Doktorand an der College of Maryland und Praktikant bei Google Analysis; Han Zhang, ein Senior Forschungswissenschaftler bei Google; und Dilip Krishnan, wissenschaftlicher Mitarbeiter bei Google. Rechenressourcen wurden von der Google Cloud Platform und der MIT-IBM Watson Analysis Collaboration bereitgestellt. Die Forschungsergebnisse des Groups wurden auf der Konferenz zu Pc Imaginative and prescient und Mustererkennung 2023 vorgestellt.