Lernen Sie Seal kennen: Ein KI-Framework, das die „Segmentierung beliebiger Punktwolkensequenzen“ durch die Nutzung von 2D Vision Foundation-Modellen für selbstüberwachtes Lernen auf großen 3D-Punktwolken verfolgt

0
24


Massive Language Fashions (LLMs) haben die Group der künstlichen Intelligenz im Sturm erobert. Ihr jüngster Einfluss und ihre unglaubliche Leistungsdarstellung haben dazu beigetragen, eine Vielzahl von Branchen wie Gesundheitswesen, Finanzen, Unterhaltung usw. zu unterstützen. Die bekannten LLMs wie GPT-3.5, GPT 4, DALLE 2 und BERT, auch bekannt als die Stiftung Modelle, führen außergewöhnliche Aufgaben aus und erleichtern uns das Leben, indem sie mit nur einer kurzen Eingabeaufforderung in natürlicher Sprache einzigartige Inhalte generieren.

Aktuelle Imaginative and prescient Basis-Modelle (VFMs) wie SAM, X-Decoder und SEEM haben viele Fortschritte in der Pc Imaginative and prescient gemacht. Obwohl VFMs bei 2D-Wahrnehmungsaufgaben enorme Fortschritte gemacht haben, muss die 3D-VFM-Forschung noch verbessert werden. Forscher haben vorgeschlagen, dass eine Erweiterung aktueller 2D-VFMs für 3D-Wahrnehmungsaufgaben erforderlich ist. Eine entscheidende Aufgabe der 3D-Wahrnehmung ist die Segmentierung der von LiDAR-Sensoren erfassten Punktwolken, die für den sicheren Betrieb autonomer Fahrzeuge unerlässlich ist.

Bestehende Punktwolken-Segmentierungstechniken basieren hauptsächlich auf umfangreichen Datensätzen, die für das Coaching mit Anmerkungen versehen wurden. Das Beschriften von Punktwolken ist jedoch zeitaufwändig und schwierig. Um alle Herausforderungen zu meistern, hat ein Forscherteam Seal eingeführt, ein Framework, das Imaginative and prescient-Basis-Modelle für die Segmentierung verschiedener Punktwolkensequenzen im Automobilbereich nutzt. Inspiriert durch modalübergreifendes Repräsentationslernen sammelt Seal semantisch reichhaltiges Wissen von VFMs, um selbstüberwachtes Repräsentationslernen auf Automotive-Punktwolken zu unterstützen. Die Hauptidee besteht darin, hochwertige Kontrastproben für das Lernen modalübergreifender Darstellungen mithilfe einer 2D-3D-Beziehung zwischen LiDAR und Kamerasensoren zu entwickeln.

Seal besitzt drei Schlüsseleigenschaften: Skalierbarkeit, Konsistenz und Generalisierbarkeit.

  1. Skalierbarkeit – Seal nutzt VFMs, indem es sie einfach in Punktwolken umwandelt, wodurch die Notwendigkeit von 2D- oder 3D-Anmerkungen während der Vortrainingsphase entfällt. Aufgrund seiner Skalierbarkeit verwaltet es große Datenmengen, wodurch sogar die zeitaufwändige Notwendigkeit menschlicher Anmerkungen entfällt.
  1. Konsistenz: Die Architektur erzwingt räumliche und zeitliche Verbindungen sowohl auf der Kamera-zu-LiDAR- als auch auf der Punkt-zu-Phase-Stufe. Seal ermöglicht ein effizientes modalübergreifendes Repräsentationslernen durch die Erfassung der modalübergreifenden Interaktionen zwischen Imaginative and prescient, d. h. Kamera und LiDAR-Sensoren, wodurch sichergestellt wird, dass die gelernten Darstellungen relevante und kohärente Daten beider Modalitäten enthalten.
  1. Generalisierbarkeit: Seal ermöglicht den Wissenstransfer zu nachgelagerten Anwendungen mit verschiedenen Punktwolken-Datensätzen. Es verallgemeinert und verarbeitet Datensätze mit unterschiedlichen Auflösungen, Größen, Reinheitsgraden, Verschmutzungsgraden, tatsächlichen Daten und künstlichen Daten.

Einige der wichtigsten Beiträge, die das Group erwähnt, sind:

  1. Das vorgeschlagene Framework Seal ist ein skalierbares, zuverlässiges und generalisierbares Framework, das zur Erfassung semantischer räumlicher und zeitlicher Konsistenz entwickelt wurde.
  1. Es ermöglicht die Extraktion nützlicher Merkmale aus Punktwolkensequenzen von Automobilen.
  1. Die Autoren gaben an, dass diese Studie die erste ist, die 2D-Imaginative and prescient-Grundlagenmodelle für selbstüberwachtes Repräsentationslernen in einem signifikanten Maßstab von 3D-Punktwolken verwendet.
  1. Bei 11 verschiedenen Punktwolken-Datensätzen mit unterschiedlichen Datenkonfigurationen hat SEAL sowohl bei der linearen Sondierung als auch bei der Feinabstimmung für nachgelagerte Anwendungen eine bessere Leistung als frühere Methoden erbracht.

Zur Evaluierung hat das Group Exams an elf verschiedenen Punktwolken-Datensätzen durchgeführt, um die Leistung von Seal zu bewerten. Die Ergebnisse zeigten die Überlegenheit von Seal gegenüber den bestehenden Ansätzen. Im nuScenes-Datensatz erreichte Seal nach linearer Sondierung einen bemerkenswerten mittleren Schnitt über Union (mIoU) von 45,0 %. Diese Leistung übertraf die zufällige Initialisierung um 36,9 % mIoU und übertraf frühere SOTA-Methoden um 6,1 % mIoU. Seal zeigte außerdem erhebliche Leistungssteigerungen bei zwanzig verschiedenen Feinabstimmungsaufgaben mit wenigen Schüssen in allen elf getesteten Punktwolkendatensätzen.


Besuche die Papier, GithubUnd Twittern. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Knowledge-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.






Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here