Lernen Sie BITE kennen: Eine neue Methode, die die 3D-Hundeform und -Posen aus einem Bild rekonstruiert, selbst bei anspruchsvollen Posen wie Sitzen und Liegen

0
25


Zahlreiche Bereiche, darunter Biologie und Naturschutz sowie Unterhaltung und die Entwicklung virtueller Inhalte, können von der Erfassung und Modellierung von 3D-Tierformen und -haltungen profitieren. Da es nicht erforderlich ist, dass das Tier bewegungslos bleibt, eine bestimmte Körperhaltung beibehält, Körperkontakt mit dem Beobachter herstellt oder irgendetwas anderes kooperiert, sind Kameras ein natürlicher Sensor für die Beobachtung von Tieren. Es gibt eine lange Geschichte der Verwendung von Fotos zur Untersuchung von Tieren, wie beispielsweise Muybridges bekannte Chronofotografien „Horse in Movement“. Im Gegensatz zu früheren Arbeiten zur dreidimensionalen menschlichen Type und Haltung wurden jedoch kürzlich ausdrucksstarke 3D-Modelle entwickelt, die sich an die einzigartige Type und Place eines Tieres anpassen können. Hier konzentrieren sie sich auf die Herausforderung der 3D-Rekonstruktion eines Hundes aus einem einzigen Foto.

Sie konzentrieren sich auf Hunde als Modellspezies aufgrund ihrer starken vierbeinigen Gelenkdeformationen und der großen Formvariation zwischen den Rassen. Hunde werden regelmäßig mit der Kamera festgehalten. Somit sind verschiedene Haltungen, Formen und Einstellungen leicht zugänglich. Die Modellierung von Menschen und Hunden magazine auf den ersten Blick vergleichbare Schwierigkeiten bereiten, stellt jedoch ganz unterschiedliche technologische Hürden dar. Den Menschen steht bereits eine große Menge an 3D-Scan- und Movement-Seize-Daten zur Verfügung. Das Erlernen robuster, artikulierter Modelle wie SMPL oder GHUM wurde durch die Abdeckung der richtigen Haltungs- und Formvariablen durch die Daten ermöglicht.

Im Gegensatz dazu ist es eine Herausforderung, 3D-Beobachtungen von Tieren zu sammeln, und es müssen derzeit mehr davon verfügbar sein, um ähnlich ausdrucksstarke statistische 3D-Modelle zu trainieren, die alle denkbaren Formen und Positionen berücksichtigen. Dank der Entwicklung von SMAL, einem parametrischen Vierbeinermodell, das aus Spielzeugfiguren gelernt wurde, ist es jetzt möglich, Tiere, darunter auch Hunde, anhand von Fotos in 3D nachzubilden. Umgekehrt ist SMAL ein allgemeines Modell für viele Arten, von Katzen bis hin zu Flusspferden. Es kann zwar die vielen Körpertypen verschiedener Tiere darstellen, nicht jedoch die charakteristischen und winzigen Particulars von Hunderassen, wie zum Beispiel die große Vielfalt an Ohren. Um dieses Drawback zu lösen, stellen Forscher der ETH Zürich, des Max-Planck-Instituts für Intelligente Systeme (Deutschland) und des IMATI-CNR (Italien) das erste parametrische D-SMAL-Modell bereit, das Hunde korrekt darstellt.

Ein weiteres Drawback besteht darin, dass Hunde im Gegensatz zu Menschen über relativ wenige Bewegungserfassungsdaten verfügen und von den vorhandenen Daten nur selten Sitz- und Liegepositionen erfasst werden. Aus diesem Grund ist es für aktuelle Algorithmen schwierig, auf Hunde in bestimmten Haltungen zu schließen. Das Erlernen früherer als 3D-Posen anhand historischer Daten führt beispielsweise zu einer Ausrichtung auf Steh- und Gehpositionen. Durch die Verwendung allgemeiner Einschränkungen kann man diesen Prior schwächen, aber die Haltungsschätzung würde stark unterbestimmt werden. Um dieses Drawback zu lösen, nutzen sie Informationen zur körperlichen Berührung, die bei der Modellierung von (Land-)Tieren bisher nicht berücksichtigt wurden, etwa die Tatsache, dass sie der Schwerkraft unterliegen und daher auf dem Boden stehen, sitzen oder liegen.

In schwierigen Situationen mit starker Selbstokklusion demonstrieren sie, wie sie Bodenkontaktinformationen nutzen können, um komplizierte Hundepositionen abzuschätzen. Obwohl bei der Einschätzung der menschlichen Körperhaltung Beschränkungen der Bodenebene verwendet wurden, ist der potenzielle Vorteil für Vierbeiner größer. Vier Beine deuten auf mehr Bodenkontaktpunkte, mehr beim Sitzen oder Liegen verdeckte Körperteile und größere, nicht starre Verformungen hin. Ein weiterer Nachteil früherer Forschung besteht darin, dass die Rekonstruktionspipelines häufig auf 2D-Bildern trainiert werden, da das Sammeln von 3D-Daten (mit übereinstimmenden 2D-Bildern) eine Herausforderung darstellt. Daher prognostizieren sie häufig Positionen und Formen, die bei einer erneuten Projektion den visuellen Beweisen sehr nahe kommen, jedoch entlang der Blickrichtung verzerrt sind.

Die 3D-Rekonstruktion könnte fehlerhaft sein, wenn sie aus einem anderen Blickwinkel betrachtet wird, da mangels gepaarter Daten nicht genügend Informationen vorhanden sind, um zu bestimmen, wo weiter entfernte oder sogar verdeckte Körperkomponenten entlang der Tiefenrichtung platziert werden müssen. Wieder einmal entdecken sie, dass die Simulation des Bodenkontakts von Vorteil ist. Anstatt gekoppelte 2D- und 3D-Daten manuell zu rekonstruieren (oder zu synthetisieren), wechseln sie zu einer lockereren 3D-Überwachungsmethode und erfassen Bodenkontaktetiketten. Sie bitten Annotatoren, anzugeben, ob die Bodenoberfläche unter dem Hund flach ist, und, wenn ja, zusätzlich die Bodenkontaktpunkte am 3D-Tier zu kommentieren. Dies erreichen sie, indem sie den Kommentatoren echte Fotos präsentieren.

Abbildung 1 zeigt, wie BITE es ermöglicht, die 3D-Type und Haltung eines Hundes anhand eines einzigen Eingabebildes abzuschätzen. Das Modell ist in der Lage, mit einer Vielzahl von Rassen und Typen sowie schwierigen Posen zu arbeiten, die außerhalb des Bereichs von Trainingsposen liegen, einschließlich Sitzen oder Liegen auf dem Boden.

Sie fanden heraus, dass dem Netzwerk beigebracht werden kann, die Oberfläche zu klassifizieren und die Kontaktpunkte anhand eines einzigen Bildes recht genau zu erkennen, sodass es auch zum Testzeitpunkt eingesetzt werden kann. Diese Etiketten werden nicht nur für das Coaching verwendet. Ihr Rekonstruktionssystem basiert auf dem neuesten Spitzenmodell BARC und heißt BITE. Sie trainieren BARC mithilfe ihres neuartigen D-SMAL-Hundemodells als ersten groben Anpassungsschritt neu. Anschließend senden sie die resultierenden Vorhersagen an ihr kürzlich erstelltes Verfeinerungsnetzwerk, das sie mithilfe von Bodenkontaktverlusten trainieren, um sowohl die Kameraeinstellungen als auch die Haltung des Hundes zu verbessern. Sie können auch den Bodenkontaktverlust zum Testzeitpunkt nutzen, um die Anpassung an das Testbild völlig autonom zu optimieren.

Dadurch wird die Qualität der Rekonstruktion deutlich gesteigert. Auch wenn das Trainingsset für die BARC-Pose zuvor keine solchen Posen enthält, können sie mit BITE Hunde bekommen, die korrekt auf dem (lokal ebenen) Boden stehen oder realistisch in Sitz- und Liegepositionen nachgebaut werden (siehe Abb. 1). Frühere Arbeiten zur 3D-Rekonstruktion von Hunden werden entweder durch subjektive visuelle Beurteilungen oder durch Rückprojektion auf das Bild und Auswertung von 2D-Residuen beurteilt, wodurch tiefenbezogene Ungenauigkeiten wegprojektiert werden. Sie haben einen einzigartigen, halbsynthetischen Datensatz mit 3D-Grundwahrheit entwickelt, indem sie 3D-Scans tatsächlicher Eckzähne aus verschiedenen Blickwinkeln erstellt haben, um das Fehlen objektiver 3D-Bewertungen zu überwinden. Sie bewerten BITE und seine Hauptkonkurrenten anhand dieses neuen Datensatzes und zeigen, dass BITE einen neuen Normal für diesen Bereich setzt.

Die folgende Zusammenfassung ihrer Beiträge:

1. Sie bieten D-SMAL, ein brandneues, hundespezifisches 3D-Haltungs- und Formmodell, das von SMAL entwickelt wurde.

2. Sie erstellen BITE, ein neuronales Modell zur Verbesserung der 3D-Hundehaltung bei gleichzeitiger Beurteilung der lokalen Bodenebene. BITE fördert überzeugenden Bodenkontakt.

3. Sie zeigen, wie es möglich ist, vor der Verwendung dieses Modells Hundepositionen wiederherzustellen, die sich stark von den in einem (notwendigerweise kleinen) codierten unterscheiden.

4. Mithilfe des komplexen StanfordExtra-Datensatzes verbessern sie den Stand der Technik für die monokulare 3D-Haltungsschätzung.

5. Um den Übergang zur echten 3D-Bewertung zu fördern, präsentieren sie eine neue, halbsynthetische 3D-Testsammlung, die auf Scans echter Eckzähne basiert.


Besuche die Papier Und Projektseite. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here