Schon in prähistorischen Zeiten nutzten Menschen Skizzen zur Kommunikation und Dokumentation. Im letzten Jahrzehnt haben Forscher große Fortschritte beim Verständnis gemacht, wie Skizzen von der Klassifizierung und Synthese bis hin zu neuartigeren Anwendungen wie der Modellierung visueller Abstraktion, der Stilübertragung und der kontinuierlichen Strichanpassung eingesetzt werden können. Allerdings haben nur Sketch-based Picture Retrieval (SBIR) und sein feinkörniges Gegenstück (FGSBIR) das Ausdruckspotenzial von Skizzen untersucht. Neuere Systeme sind bereits für die kommerzielle Anpassung ausgereift, ein fantastischer Beweis dafür, wie die Entwicklung der Ausdruckskraft von Skizzen erhebliche Auswirkungen haben kann.
Skizzen sind unglaublich eindrucksvoll, weil sie automatisch nuancierte und persönliche visuelle Hinweise einfangen. Die Untersuchung dieser inhärenten Qualitäten des menschlichen Skizzierens beschränkte sich jedoch auf den Bereich der Bildwiederherstellung. Zum ersten Mal trainieren Wissenschaftler Systeme, um die evokative Kraft von Skizzen für die grundlegendste Aufgabe des Sehens zu nutzen: das Erkennen von Objekten in einer Szene. Das Endprodukt ist ein Framework zum Erkennen von Objekten auf der Grundlage von Skizzen, sodass man sich auf das spezifische „Zebra“ (z. B. eines, das Gras frisst) in einer Zebraherde konzentrieren kann. Darüber hinaus gehen die Forscher davon aus, dass das Modell erfolgreich ist, ohne:
- Gehen Sie mit einer Vorstellung davon, welche Ergebnisse zu erwarten sind, in den Check (Zero-Shot).
- Es sind keine zusätzlichen Begrenzungsrahmen oder Klassenbezeichnungen erforderlich (wie bei vollständig überwacht).
Die Forscher legen außerdem fest, dass der skizzenbasierte Detektor auch im Zero-Shot-Modus arbeitet, was die Neuheit des Techniques erhöht. In den folgenden Abschnitten wird detailliert beschrieben, wie sie die Objekterkennung von einer Konfiguration mit geschlossener Menge auf eine Konfiguration mit offenem Vokabular umstellen. Objektdetektoren verwenden beispielsweise Prototyp-Lernen anstelle von Klassifizierungsköpfen, wobei codierte Abfrageskizzenfunktionen als Unterstützungssatz dienen. Das Modell wird dann mit einem Multi-Kategorie-Kreuzentropieverlust über die Prototypen aller denkbaren Kategorien oder Instanzen in einer schwach überwachten Objekterkennungsumgebung (WSOD) trainiert. Die Objekterkennung erfolgt auf Bildebene, während SBIR mit Paaren von Skizzen und Fotos einzelner Objekte trainiert wird. Aus diesem Grund erfordert das SBIR-Objektdetektortraining eine Brücke zwischen Eigenschaften auf Objektebene und auf Bildebene.
Die Beiträge der Forscher sind:
- Kultivierung der Ausdruckskraft menschlicher Skizzen zur Objekterkennung.
- Ein auf der Skizze aufgebauter Objektdetektor, der herausfinden kann, was man vermitteln möchte
- Ein Detektor für Objekte, der eine herkömmliche Erkennung auf Kategorieebene sowie auf Instanz- und Teilebene ermöglicht.
- Eine neuartige Immediate-Studying-Konfiguration, die CLIP und SBIR kombiniert, um einen skizzenfähigen Detektor zu erzeugen, der ohne Begrenzungsrahmenanmerkungen oder Klassenbeschriftungen im Zero-Shot-Modus funktionieren kann.
- Die Ergebnisse sind denen von SOD und WSOD in einer Zero-Shot-Einstellung überlegen.
Anstatt bei Null anzufangen, haben Forscher eine intuitive Synergie zwischen Basismodellen (wie CLIP) und vorhandenen Skizzenmodellen für den skizzenbasierten Bildabruf (SBIR) demonstriert, mit denen sich die Aufgabe bereits elegant lösen lässt. Insbesondere führen sie zunächst separate Eingabeaufforderungen für die Skizzen- und Fotozweige eines SBIR-Modells durch und nutzen dann die Generalisierungsfähigkeit von CLIP, um hochgradig generalisierbare Skizzen- und Foto-Encoder zu erstellen. Um sicherzustellen, dass die Regionseinbettungen der erkannten Boxen mit denen der SBIR-Skizzen und -Fotos übereinstimmen, entwerfen sie ein Trainingsparadigma, um die erlernten Encoder für die Objekterkennung anzupassen. Das Framework übertrifft überwachte (SOD) und schwach überwachte (WSOD) Objektdetektoren in Zero-Shot-Setups, wenn es mit branchenüblichen Objekterkennungsdatensätzen, einschließlich PASCAL-VOC und MS-COCO, getestet wird.
Etwas zusammenfassen
Um die Objekterkennung zu verbessern, fördern Forscher aktiv die Ausdruckskraft des Menschen beim Skizzieren. Das vorgeschlagene skizzenfähige Objekterkennungs-Framework ist ein instanz- und teilbewusster Objektdetektor, der verstehen kann, was man in einer Skizze vermitteln möchte. Als Ergebnis entwickeln sie ein innovatives Immediate-Studying-Setup, das CLIP und SBIR kombiniert, um einen Sketch-Award-Detektor zu entwickeln, der ohne Bounding-Field-Anmerkungen oder Klassenbeschriftungen funktioniert. Für verschiedene Zwecke ist der Detektor auch für den Zero-Shot-Betrieb ausgelegt. Andererseits wird SBIR durch Paare von Skizzen und Fotos einer einzelnen Sache gelehrt. Sie verwenden einen Datenerweiterungsansatz, der die Widerstandsfähigkeit gegen Korruption und Verallgemeinerung außerhalb des Wortschatzes erhöht, um die Lücke zwischen der Objekt- und der Bildebene zu schließen. Das resultierende Framework übertrifft überwachte und schwach überwachte Objektdetektoren in einer Zero-Shot-Einstellung.
Besuche die Papier Und Referenzartikel. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.