Lernen Sie DORSal kennen: Ein strukturiertes 3D-Diffusionsmodell für die Generierung und Bearbeitung von 3D-Szenen auf Objektebene

0
23


Künstliche Intelligenz entwickelt sich mit der Einführung generativer KI und großer Sprachmodelle (LLMs) weiter. Bekannte Modelle wie GPT, BERT, PaLM usw. sind einige großartige Ergänzungen zur langen Liste von LLMs, die die Interaktion von Mensch und Laptop verändern. Bei der Bilderzeugung haben Diffusionsmodelle große Aufmerksamkeit von Forschern auf sich gezogen, da diese Modelle die komplexe Wahrscheinlichkeitsverteilung eines Bilddatensatzes erfassen und neue Stichproben generieren, die den Trainingsdaten ähneln. Auch das Verständnis von 3D-Szenen entwickelt sich weiter und ermöglicht die Entwicklung geometriefreier neuronaler Netze, die anhand eines großen Szenendatensatzes trainiert werden können, um Szenendarstellungen zu lernen. Diese Netzwerke lassen sich intestine auf unsichtbare Szenen und Objekte verallgemeinern, rendern Ansichten aus nur einem oder wenigen Eingabebildern und benötigen für das Coaching nur wenige Beobachtungen professional Szene.

Durch die Kombination der Fähigkeiten von Diffusionsmodellen und Lernmodellen für die 3D-Szenendarstellung hat ein Forscherteam der UC Berkeley, von Google Analysis und Google DeepMind DORSal (Diffusion for Object-centric Representations of Scenes et al.) eingeführt, einen Ansatz für die Erzeugung neuartiger Perspektiven in dreidimensionalen Szenen durch die Kombination von Objektdarstellungen mit Diffusionsdecodern. DORSal ist geometriefrei, da es die 3D-Szenenstruktur ausschließlich aus Daten lernt, ohne dass teures Volumenrendering erforderlich ist.

Zur Erstellung von 3D-Szenen nutzt DORSal eine Videodiffusionsarchitektur, die ursprünglich für Bildsynthesezwecke entwickelt wurde. Das Hauptkonzept besteht darin, sich auf objektzentrierte, schlitzbasierte Darstellungen von Szenen zu verlassen, um das Diffusionsmodell einzuschränken. Diese Darstellungen erfassen entscheidende Particulars über die Objekte der Szene und ihre Eigenschaften. DORSal erleichtert die Synthese hochpräziser innovativer Perspektiven von 3D-Szenen durch die Konfiguration des Diffusionsmodells auf diesen objektzentrierten Darstellungen. Darüber hinaus bleibt die Möglichkeit zur Szenenbearbeitung auf Objektebene erhalten, sodass Benutzer bestimmte Elemente in der Szene ändern und ändern können.

Die wichtigsten vom Crew geteilten Beiträge sind wie folgt:

  1. DORSal, ein Ansatz zur Synthese neuartiger 3D-Ansichten, nutzt die Stärken von Diffusionsmodellen und objektzentrierten Szenendarstellungen, um die Qualität gerenderter Ansichten zu verbessern.
  1. DORSal übertrifft frühere Methoden aus der Literatur zum Verständnis von 3D-Szenen und ist in der Lage, deutlich präzisere Ansichten zu erzeugen, mit einer 5- bis 10-fachen Verbesserung der Fréchet Inception Distance (FID).
  1. Im Vergleich zu früheren Arbeiten zu 3D-Diffusionsmodellen zeigt DORSal eine überlegene Leistung bei der Handhabung komplexerer Szenen. Bei der Auswertung realer Avenue View-Daten schneidet DORSal hinsichtlich der Rendering-Qualität deutlich besser ab.
  1. DORSal ist in der Lage, das Diffusionsmodell auf eine strukturierte, objektbasierte Szenendarstellung zu konditionieren. Durch die Verwendung dieser Darstellung lernt DORSal, Szenen mithilfe einzelner Objekte zu komponieren, was eine grundlegende Szenenbearbeitung auf Objektebene während der Inferenz ermöglicht und es Benutzern ermöglicht, bestimmte Objekte innerhalb der Szene zu manipulieren und zu modifizieren.

Zusammenfassend lässt sich sagen, dass die Wirksamkeit von DORSal anhand der Experimente deutlich wird, die sowohl an komplexen synthetischen Multiobjektszenen als auch an realen, groß angelegten Datensätzen wie Google Avenue View durchgeführt wurden. Seine Fähigkeit, skalierbares neuronales Rendering von 3D-Szenen mit Bearbeitung auf Objektebene erfolgreich zu ermöglichen, macht es zu einem vielversprechenden Ansatz für die Zukunft. Die verbesserte Rendering-Qualität zeigt Potenzial für ein besseres Verständnis von 3D-Szenen.


Besuche die Projektseite Und Papier. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


Empfohlene Instruments:

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Power Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Knowledge-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here