Viele Bereiche können von den jüngsten Fortschritten bei der Schätzung der dreidimensionalen menschlichen Pose und Type (HPS) profitieren und diese nutzen. Allerdings berücksichtigen die meisten Ansätze jeweils nur ein einzelnes Bild und schätzen die menschliche Place relativ zur Kamera. Darüber hinaus folgen diese Techniken den einzelnen Personen nicht und können ihre weltweiten Reisewege nicht abrufen. Bei den meisten handgeführten Movies wird das Downside dadurch verschärft, dass sie mit einer wackeligen, wackeligen Kamera aufgenommen werden.
Um diese Probleme zu lösen, implementieren Forscher des Harbin Institute of Expertise, der Discover Academy of JD.com, des Max-Planck-Instituts für Intelligente Systeme und HiDream.ai mithilfe einer 5D-Darstellung (Raum, Zeit und Identität). Die vorgeschlagene TRACE-Technik weist verschiedene modern architektonische Merkmale auf. Vor allem werden zwei Romane, „Maps“, verwendet, um über die dreidimensionale Bewegung von Menschen in Zeit und Raum nachzudenken, sowohl aus der Perspektive der Kamera als auch aus der Perspektive der Welt. Mit Hilfe eines zweiten Speichermoduls ist es möglich, einzelne Personen auch nach längerer Abwesenheit im Auge zu behalten. TRACE stellt in einem einzigen Schritt menschliche 3D-Modelle in globalen Koordinaten aus bewegten Kameras wieder her und verfolgt gleichzeitig deren Bewegungen.
Ihr Ziel conflict es, die globalen Koordinaten, die 3D-Place, die Type, die Identität und die Bewegung jeder Individual gleichzeitig zu rekonstruieren. Zu diesem Zweck extrahiert TRACE zunächst zeitliche Informationen, bevor es ein spezielles Gehirnnetzwerk verwendet, um jede Unteraufgabe zu entschlüsseln. Erstens verwendet TRACE zwei parallele Achsen, um Video und Bewegung in separate Characteristic-Maps zu kodieren, eine für das zeitliche Bild (F’i) und eine für die Bewegung (Oi). Mithilfe dieser Funktionen führen die Teilbäume „Erkennung“ und „Monitoring“ eine Multi-Subjekt-Verfolgung aus, um die menschliche 3D-Bewegung in Kamerakoordinaten zu rekonstruieren.
Die geschätzte 3D-Bewegungsversatzkarte zeigt die relative Bewegung jedes Motivs im Raum zwischen zwei Bildern. Eine modern Speichereinheit extrahiert Subjektidentitäten und konstruiert menschliche Flugbahnen in Kamerakoordinaten unter Verwendung geschätzter 3D-Erkennungen und 3D-Bewegungsversätze. Der Weltzweig des Romans berechnet dann eine Weltbewegungskarte, um die Flugbahnen der Probanden in globalen Koordinaten abzuschätzen.
Das Fehlen realer Daten zum Trainieren und Auswerten globaler menschlicher Flugbahnschätzungen besteht auch bei einer robusten 5D-Darstellung weiterhin. Allerdings ist die Zusammenstellung globaler menschlicher Flugbahnen und Kamerahaltungen für dynamische Kamerafilme natürlicher Umgebungen (DC-Movies) eine Herausforderung. Daher simulierte das Staff Kamerabewegungen, um von stationären Kameras aufgenommene Wildfilme in DC-Movies umzuwandeln und einen neuen Datensatz namens DynaCam zu generieren.
Das Staff testete TRACE mithilfe des DynaCam-Datensatzes und zwei Multi-Personen-In-the-Wild-Benchmarks. Wenn es um 3DPW geht, liefert TRACE Ergebnisse, die SOTA sind. Auf MuPoTS-3D erzielt TRACE bessere Ergebnisse bei der Verfolgung von Menschen unter langfristiger Okklusion als frühere 3D-Darstellungsbasierte Ansätze und Monitoring-by-Detection-Methoden. Die Ergebnisse zeigen, dass TRACE GLAMR auf DynaCam übertrifft, wenn es darum geht, die gesamte 3D-Flugbahn eines Menschen aus DC-Movies zu berechnen.
Das Staff schlägt vor, die explizite Kamerabewegungsschätzung mithilfe von Trainingsdaten wie BEDLAM zu untersuchen, die in Zukunft komplizierte menschliche Bewegungen, 3D-Szenen und Kamerabewegungen umfassen.
Besuche die Papier, Code, Und Projekt. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
Empfohlene Instruments Aus AI Tools Club
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanushree Shenwai ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Expertise (IIT) in Bhubaneswar. Sie ist eine begeisterte Knowledge-Science-Enthusiastin und hat großes Interesse am Anwendungsbereich künstlicher Intelligenz in verschiedenen Bereichen. Ihre Leidenschaft gilt der Erforschung neuer technologischer Fortschritte und ihrer praktischen Anwendung.