Das Section Something Mannequin (SAM) ist ein neuerer Vorschlag auf diesem Gebiet. Es handelt sich um ein Imaginative and prescient-Basis-Konzept, das als Durchbruch gefeiert wird. Es kann mehrere mögliche Eingabeaufforderungen des Benutzers nutzen, um jedes Objekt im Bild genau zu segmentieren. Mithilfe eines Transformer-Modells, das umfassend auf dem SA-1B-Datensatz trainiert wurde, kann SAM problemlos mit einer Vielzahl von Situationen und Objekten umgehen. Mit anderen Worten: Dank SAM ist Section Something jetzt möglich. Diese Aufgabe hat aufgrund ihrer Generalisierbarkeit das Potenzial, als Grundlage für eine Vielzahl zukünftiger Visionsherausforderungen zu dienen.
Trotz dieser Verbesserungen und der vielversprechenden Ergebnisse von SAM und nachfolgenden Modellen bei der Bewältigung der Section-Something-Aufgabe müssen die praktischen Implementierungen noch verbessert werden. Die größte Herausforderung bei der SAM-Architektur sind die hohen Verarbeitungsanforderungen von Transformer (ViT)-Modellen im Gegensatz zu ihren Faltungsanalogen. Die gestiegene Nachfrage nach kommerziellen Anwendungen inspirierte ein Forscherteam aus China, eine Echtzeit-Antwort auf das Section-Alles-Drawback zu entwickeln; Forscher nennen es FastSAM.
Um dieses Drawback zu lösen, haben Forscher die Aufgabe „Alles segmentieren“ in zwei Teile aufgeteilt: die Segmentierung aller Instanzen und die durch Eingabeaufforderungen gesteuerte Auswahl. Der erste Schritt hängt von der Verwendung eines Detektors ab, der auf einem Convolutional Neural Community (CNN) basiert. Für jede Instanz im Bild werden Segmentierungsmasken generiert. In der zweiten Stufe wird dann der passende Interessenbereich zur Eingabe angezeigt. Sie zeigen, dass ein Echtzeitmodell für jedes beliebige Datensegment mithilfe der Recheneffizienz von Convolutional Neural Networks (CNNs) möglich ist. Sie glauben auch, dass unser Ansatz den Weg für die weitverbreitete Nutzung des grundlegenden Segmentierungsprozesses in kommerziellen Umgebungen ebnen könnte.
Unter Verwendung des YOLACT-Ansatzes ist YOLOv8-seg ein Objektdetektor, der die Grundlage unseres vorgeschlagenen FastSAM bildet. Forscher nutzen auch den umfassenden SA-1B-Datensatz von SAM. Dieser CNN-Detektor erreicht eine mit SAM vergleichbare Leistung, obwohl er direkt mit nur 2 % (1/50) des SA-1B-Datensatzes trainiert wird, was eine Echtzeitanwendung trotz erheblich geringerer Rechen- und Ressourcenbeschränkungen ermöglicht. Sie demonstrieren auch die Generalisierungsleistung, indem sie es auf verschiedene nachgelagerte Segmentierungsaufgaben anwenden.
Das Section-Something-Modell in Echtzeit hat praktische Anwendungen in der Industrie. Die Einsatzmöglichkeiten sind vielfältig. Die vorgeschlagene Methode bietet nicht nur eine neuartige, umsetzbare Antwort auf eine Vielzahl von Sehaufgaben, sondern auch mit einer sehr hohen Geschwindigkeit, oft zehn- oder hundertmal schneller als herkömmliche Ansätze. Auch die neuen Perspektiven, die es auf große Modellarchitekturen für allgemeine Sehprobleme bietet, sind willkommen. Unsere Forschung legt nahe, dass es immer noch Fälle gibt, in denen spezialisierte Modelle das beste Gleichgewicht zwischen Effizienz und Genauigkeit bieten. Unsere Methode demonstriert dann die Realisierbarkeit einer Route, die durch das Einfügen einer künstlichen Struktur vor der Struktur den für die Ausführung des Modells erforderlichen Rechenaufwand erheblich minimieren kann.
Das Workforce fasst seine wichtigsten Beiträge wie folgt zusammen:
- Der Herausforderung „Section Something“ wird durch die Einführung einer revolutionären, Echtzeit-CNN-basierten Methode begegnet, die den Verarbeitungsbedarf ohne Einbußen bei der Leistung drastisch senkt.
- Einblicke in das Potenzial leichter CNN-Modelle bei komplizierten Sehaufgaben werden in diesem Artikel gezeigt, der die erste Forschung zur Anwendung eines CNN-Detektors auf die Section-Alles-Herausforderung beinhaltet.
- Die Vor- und Nachteile der vorgeschlagenen Methode im Bereich „Alles“ werden durch einen Vergleich mit SAM bei verschiedenen Benchmarks deutlich.
Insgesamt entspricht das vorgeschlagene FastSAM der Leistung von SAM und ist gleichzeitig 50-mal bzw. 170-mal schneller in der Ausführung. Seine schnelle Leistung könnte industriellen Anwendungen wie der Identifizierung von Straßenhindernissen, der Verfolgung von Videoinstanzen und der Bildbearbeitung zugute kommen. FastSAM kann in einigen Fotos hochwertigere Masken für große Objekte erstellen. Das vorgeschlagene FastSAM kann den Echtzeit-Segmentvorgang durchführen, indem es belastbare und effiziente Objekte von Interesse aus einem segmentierten Bild auswählt. Sie führten eine empirische Untersuchung durch, in der FastSAM mit SAM bei vier Zero-Shot-Aufgaben verglichen wurde: Kantenerkennung, Vorschlagsgenerierung, Instanzsegmentierung und Lokalisierung mit Texteingabeaufforderungen. Die Ergebnisse zeigen, dass FastSAM in der Laufzeit 50-mal schneller ist als SAM-ViT-H und viele nachgelagerte Jobs effizient in Echtzeit verarbeiten kann.
Besuche die Papier Und Github Repo. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments:
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.