Forscher der ETH Zürich und der HKUST schlagen HQ-SAM vor: ein hochwertiges Zero-Shot-Segmentierungsmodell durch Einführung eines vernachlässigbaren Overheads für das ursprüngliche SAM

0
27


Eine genaue Segmentierung mehrerer Objekte ist für verschiedene Szenenverständnisanwendungen wie Bild-/Videoverarbeitung, Roboterwahrnehmung und AR/VR unerlässlich. Kürzlich wurde das Section Something Mannequin (SAM) veröffentlicht, ein grundlegendes Visionsmodell für die umfassende Bildsegmentierung. Es wurde mithilfe von Maskenetiketten im Milliardenmaßstab trainiert. SAM kann verschiedene Objekte, Komponenten und visuelle Strukturen in mehreren Kontexten segmentieren, indem es eine Folge von Punkten, einen Begrenzungsrahmen oder eine grobe Maske als Eingabe verwendet. Seine Zero-Shot-Segmentierungsfunktionen haben einen schnellen Paradigmenwechsel ausgelöst, da sie mit nur wenigen grundlegenden Eingabeaufforderungen in vielen Anwendungen eingesetzt werden können.

Trotz der herausragenden Leistung müssen die Segmentierungsergebnisse von SAM noch verbessert werden. Zwei wesentliche Probleme plagen SAM: 1) Unebene Maskenränder, die häufig die Segmentierung dünner Objektstrukturen unterlassen, wie in Abbildung 1 dargestellt. 2) Falsche Prognosen, beschädigte Masken oder erhebliche Ungenauigkeiten in schwierigen Fällen. Dies hängt häufig damit zusammen, dass SAM dazu neigt, dünne Strukturen, wie die Drachenleinen in der oberen rechten Spalte der Abbildung, falsch zu interpretieren. Die Anwendung und Wirksamkeit grundlegender Segmentierungsmethoden wie SAM werden durch diese Fehler erheblich eingeschränkt, insbesondere bei automatisierten Anmerkungs- und Bild-/Videobearbeitungsaufgaben, bei denen äußerst präzise Bildmasken unerlässlich sind.

Abbildung 1: Vergleicht die vorhergesagten Masken von SAM und unserem HQ-SAM anhand der Eingabeaufforderungen eines einzelnen roten Kästchens oder einer Reihe von Punkten auf dem Objekt. Mit äußerst präzisen Grenzen generiert HQ-SAM Ergebnisse, die deutlich detaillierter sind. In der Spalte ganz rechts interpretiert SAM die dünne Struktur der Drachenleinen falsch und erzeugt eine erhebliche Anzahl von Fehlern mit gebrochenen Löchern für die Eingabeaufforderung im Eingabefeld.

Forscher der ETH Zürich und der HKUST schlagen HQ-SAM vor, das die robusten Zero-Shot-Fähigkeiten und die Flexibilität des ursprünglichen SAM beibehält und gleichzeitig selbst unter extrem schwierigen Umständen sehr genaue Segmentierungsmasken vorhersehen kann (siehe Abbildung 1). Sie schlagen eine geringfügige Anpassung von SAM vor, bei der weniger als 0,5 % Parameter hinzugefügt werden, um die Kapazität für hochwertige Segmentierung zu erhöhen und gleichzeitig Effizienz und Zero-Shot-Leistung beizubehalten. Die allgemeine Anordnung der Zero-Shot-Segmentierung wird durch die direkte Anpassung des SAM-Decoders oder das Hinzufügen eines neuen Decodermoduls erheblich beeinträchtigt. Daher schlagen sie vor, dass das HQ-SAM-Design die Zero-Shot-Effizienz vollständig beibehält und sich in die aktuell erlernte SAM-Struktur integriert und diese wiederverwendet.

Zusätzlich zu den ursprünglichen Eingabeaufforderungs- und Ausgabetokens erstellen sie ein lernbares HQ-Ausgabetoken, das in den Maskendecoder von SAM eingespeist wird. Ihrem HQ-Output-Token und den zugehörigen MLP-Schichten wird beigebracht, im Gegensatz zu den ursprünglichen Ausgabe-Tokens eine qualitativ hochwertige Segmentierungsmaske vorherzusagen. Zweitens arbeitet ihr HQ-Output-Token mit einem verbesserten Funktionsumfang, um präzise Maskeninformationen zu erzeugen, anstatt nur die Maskendecoderfunktionen des SAM zu nutzen. Sie kombinieren die Maskendecoderfunktionen von SAM mit den frühen und späten Characteristic-Maps des ViT-Encoders, um globalen semantischen Kontext und feinkörnige lokale Options zu nutzen.

Die vollständigen vorab trainierten SAM-Parameter werden während des Trainings eingefroren und nur der HQ-Output-Token, die zugehörigen dreischichtigen MLPs und ein kleiner Characteristic-Fusion-Block werden aktualisiert. Zum Erlernen einer genauen Segmentierung ist ein Datensatz mit präzisen Maskenanmerkungen verschiedener Objekte mit komplizierten und komplizierten Geometrien erforderlich. Zum Trainieren von SAM wird der SA-1B-Datensatz verwendet, der 11 Millionen Fotos und 1,1 Milliarden Masken enthält, die automatisch mit einem SAM-ähnlichen Modell erstellt wurden. Die Leistung von SAM in Abbildung 1 zeigt jedoch, dass die Verwendung dieses großen Datensatzes erhebliche wirtschaftliche Konsequenzen hat. Es gelingt ihr nicht, die in ihrer Studie angestrebten erforderlichen hochwertigen Maskengenerationen zu produzieren.

Als Ergebnis erstellen sie HQSeg-44K, einen neuen Datensatz, der 44K hochfeinkörnige Bildmaskenanmerkungen umfasst. Sechs vorhandene Bilddatensätze werden mit sehr präzisen Maskenanmerkungen kombiniert, um den HQSeg-44K zu erstellen, der über 1.000 verschiedene semantische Klassen umfasst. Dank des kleineren Datensatzes und des einfachen integrierten Designs kann HQ-SAM in weniger als 4 Stunden auf 8 RTX 3090-GPUs trainiert werden. Sie führen eine strenge quantitative und qualitative experimentelle Studie durch, um die Wirksamkeit von HQ-SAM zu überprüfen.

Anhand einer Sammlung von neun unterschiedlichen Segmentierungsdatensätzen aus verschiedenen nachgelagerten Aufgaben vergleichen sie HQ-SAM mit SAM, von denen sieben einem Zero-Shot-Übertragungsprotokoll unterliegen, darunter COCO, UVO, LVIS, HQ-YTVIS, BIG, COIFT und HR -SOD. Diese gründliche Analyse zeigt, dass das vorgeschlagene HQ-SAM im Vergleich zu SAM Masken größeren Kalibers herstellen kann und dennoch eine Nullschussfähigkeit aufweist. Eine virtuelle Demo ist auf ihrer GitHub-Seite verfügbar.

das erste hochwertige Zero-Shot-Segmentierungsmodell durch die Einführung eines vernachlässigbaren Overheads für das ursprüngliche SAM

Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Know-how (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here