Forscher von Max Plank schlagen MIME vor: ein generatives KI-Modell, das menschliche 3D-Bewegungen erfasst und plausible 3D-Szenen generiert, die mit der Bewegung übereinstimmen

0
24


Der Mensch interagiert ständig mit seiner Umgebung. Sie bewegen sich im Raum, berühren Dinge, sitzen auf Stühlen oder schlafen auf Betten. Diese Interaktionen beschreiben detailliert, wie die Szene aufgebaut ist und wo sich die Objekte befinden. Ein Pantomime ist ein Darsteller, der sein Verständnis für solche Beziehungen nutzt, um mit nichts anderem als seinen Körperbewegungen eine reichhaltige, fantasievolle 3D-Umgebung zu schaffen. Können sie einem Laptop beibringen, menschliche Handlungen nachzuahmen und die entsprechende 3D-Szene zu erstellen? Zahlreiche Bereiche, darunter Architektur, Spiele, virtuelle Realität und die Synthese synthetischer Daten, könnten von dieser Technik profitieren. Beispielsweise gibt es umfangreiche Datensätze menschlicher 3D-Bewegungen wie AMASS, aber diese Datensätze enthalten selten Particulars über die 3D-Umgebung, in der sie erfasst wurden.

Konnten sie mit AMASS glaubwürdige 3D-Szenerien für alle Bewegungen erstellen? Wenn ja, könnten sie mithilfe von AMASS Trainingsdaten mit realistischer Mensch-Szene-Interaktion erstellen. Sie entwickelten eine neuartige Technik namens MIME (Mining Interplay and Motion to deduce 3D Environments), die glaubwürdige 3D-Innenszenen auf der Grundlage menschlicher 3D-Bewegungen erstellt, um auf solche Anfragen zu reagieren. Was macht es möglich? Die Grundannahmen lauten wie folgt: (1) Die Bewegung des Menschen durch den Raum bedeutet die Abwesenheit von Gegenständen und definiert im Wesentlichen Bereiche des Bildes, die frei von Möbeln sind. Darüber hinaus wird dadurch die Artwork und Place von 3D-Objekten bei Kontakt mit der Szene eingeschränkt. Beispielsweise muss eine sitzende Particular person auf einem Stuhl, Couch, Bett usw. sitzen.

Abbildung 1: Schätzung von 3D-Szenen aus menschlichen Bewegungen. Sie stellen realistische 3D-Einstellungen wieder her, in denen die Bewegung möglicherweise durch menschliche 3D-Bewegungen (hyperlinks) stattgefunden hätte, wie sie beispielsweise durch Bewegungserfassung oder am Körper getragene Sensoren erhalten wurden. Ihr generatives Modell ist in der Lage, mehrere realistische Szenarien (rechts) mit geeigneter Interaktion zwischen Mensch und Szene zu generieren, die die Standorte und Körperhaltungen der Particular person berücksichtigen.

Forscher des Max-Planck-Instituts für Intelligente Systeme in Deutschland und von Adobe haben MIME entwickelt, eine transformatorbasierte autoregressive 3D-Szenengenerierungstechnik, um diesen Intuitionen eine greifbare Type zu geben. Bei einem leeren Grundriss und einem menschlichen Bewegungsablauf sagt MIME die Möbel voraus, die mit dem Menschen in Kontakt kommen werden. Darüber hinaus sieht es glaubhafte Gegenstände vor, die nicht mit Menschen in Berührung kommen, sondern zu anderen Gegenständen passen und sich an die durch die Bewegungen von Menschen bedingten Freiraumbeschränkungen halten. Sie unterteilen die Bewegung in berührungslose und berührungslose Schnipsel, um die Erstellung der 3D-Szene für die menschliche Bewegung vorzubereiten. Mithilfe von POSA schätzen sie potenzielle Kontaktposen ein. Die berührungslosen Haltungen projizieren die Fußscheitelpunkte auf die Bodenebene, um den Freiraum des Raumes zu ermitteln, den sie als 2D-Bodenkarten aufzeichnen.

Die von POSA vorhergesagten Kontaktscheitelpunkte erzeugen 3D-Begrenzungsrahmen, die die Kontakthaltungen und die zugehörigen 3D-Modelle des menschlichen Körpers widerspiegeln. Es wird erwartet, dass die Objekte, die die Kontakt- und Freiraumkriterien erfüllen, diese Daten autoregressiv als Eingabe für den Transformator verwenden. siehe Abb. 1. Sie erweiterten den groß angelegten synthetischen Szenendatensatz 3D-FRONT, um einen neuen Datensatz mit dem Namen 3D-FRONT HUMAN zu erstellen, um MIME zu trainieren. Sie fügen den 3D-Szenarien automatisch Personen hinzu, darunter Personen ohne Kontakt (eine Reihe von Gehbewegungen und Personen im Stehen) und Kontaktpersonen (Personen, die sitzen, sich berühren und liegen). Dazu nutzen sie statische Kontaktposen aus RenderPeople-Scans und Bewegungssequenzen von AMASS.

MIME erstellt ein realistisches 3D-Szenenlayout für die Eingabebewegung zum Inferenzzeitpunkt, dargestellt als 3D-Begrenzungsrahmen. Basierend auf dieser Anordnung wählen sie 3D-Modelle aus der 3D-FUTURE-Kollektion aus; Anschließend optimieren sie ihre 3D-Platzierung basierend auf geometrischen Einschränkungen zwischen den menschlichen Positionen und der Szene. Ihre Methode erzeugt ein 3D-Set, das menschliche Berührungen und Bewegungen unterstützt und gleichzeitig überzeugende Objekte im freien Raum platziert, im Gegensatz zu reinen 3D-Szenenerstellungssystemen wie ATISS. Ihr Ansatz ermöglicht die Entwicklung von Gegenständen, die nicht mit der Particular person in Kontakt stehen, und nimmt im Gegensatz zu Pose2Room, einem neueren Posen-bedingten generativen Modell, die gesamte Szene vorweg und nicht einzelne Objekte. Sie zeigen, dass ihr Ansatz ohne Anpassungen an aufgezeichneten echten Bewegungsabläufen wie PROX-D funktioniert.

Abschließend tragen sie Folgendes bei:

• Ein brandneues bewegungsbedingtes generatives Modell für 3D-Raumszenen, das automatisch Dinge erstellt, die mit Menschen in Kontakt kommen, ohne dabei bewegungsdefinierte freie Räume zu belegen.

• Ein brandneuer 3D-Szenendatensatz bestehend aus interagierenden Personen und Personen im freien Raum wurde erstellt, indem 3D FRONT mit Bewegungsdaten von AMASS und statischen Kontakt-/Stehposen von RenderPeople gefüllt wurde.

Der Code ist zusammen mit einer Videodemo auf GitHub verfügbar. Sie haben auch eine Video-Erklärung ihres Ansatzes.


Besuche die Papier Und Projekt. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Expertise (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here