Warum wird Deep Learning immer für Array-Daten durchgeführt? Neue KI-Forschung führt „Spatial Functa“ ein, bei der Daten zu Functa wie eine Einheit behandelt werden

0
26


Implizite neuronale Darstellungen (INRs) oder neuronale Felder sind koordinatenbasierte neuronale Netzwerke, die ein Feld, beispielsweise eine 3D-Szene, darstellen, indem sie 3D-Koordinaten auf Farb- und Dichtewerte im 3D-Raum abbilden. In jüngster Zeit haben neuronale Felder in der Bildverarbeitung als Mittel zur Darstellung von Signalen wie Bildern, 3D-Formen/Szenen, Filmen, Musik, medizinischen Bildern und Wetterdaten stark an Bedeutung gewonnen.

Anstatt den traditionellen Ansatz zu verwenden, Array-Darstellungen wie Pixel zu verarbeiten, wurde in neueren Arbeiten ein Framework namens functa vorgeschlagen, um Deep Studying direkt auf diesen Felddarstellungen durchzuführen. Sie leisten in vielen Forschungsbereichen gute Leistungen, einschließlich Generierung, Inferenz und Klassifizierung. Sie reichen von Bildern über Voxel und Klimadaten bis hin zu 3D-Szenen, funktionieren jedoch normalerweise nur mit kleinen oder einfachen Datensätzen wie CelebA-HQ 64 64 oder ShapeNet.

Frühere functa-Arbeiten haben gezeigt, dass Deep Studying auf neuronalen Feldern für viele verschiedene Modalitäten möglich ist, selbst mit relativ kleinen Datensätzen. Bei den Klassifizierungs- und Generierungsaufgaben von CIFAR-10 schnitt die Methode jedoch schlecht ab. Dies conflict für die Forscher schockierend, da die neuronalen Felddarstellungen von CIFAR-10 so genau waren, dass sie alle Daten enthielten, die zur Erledigung nachgelagerter Aufgaben erforderlich waren.

Eine neue Studie von DeepMind und der Universität Haifa präsentiert eine Strategie zur Erweiterung der Anwendbarkeit von Funkta auf umfangreichere und komplexere Datensätze. Sie zeigen zunächst, dass die gemeldeten Funkta-Ergebnisse auf CelebA-HQ mit ihrer Methodik repliziert werden können. Dann wenden sie es auf nachgelagerte Aufgaben auf CIFAR-10 an, wo die Ergebnisse zur Klassifizierung und Generierung überraschend schlecht sind.

Als Erweiterung von Funkta ersetzen räumliche Funkta flache latente Vektoren durch räumlich geordnete Darstellungen latenter Variablen. Dadurch können Options an jedem räumlichen Index ortsspezifische Informationen sammeln, anstatt Daten von allen möglichen Standorten zu sammeln. Diese kleine Anpassung ermöglicht die Verwendung anspruchsvollerer Architekturen zur Lösung nachgelagerter Aufgaben, wie z. B. Transformer mit Positionskodierungen und UNets, deren induktive Vorspannungen intestine für räumlich organisierte Daten geeignet sind.

Dadurch kann das Functa-Framework auf komplexe Datensätze wie ImageNet-1k mit einer Auflösung von 256 256 skaliert werden. Die Ergebnisse zeigen auch, dass die bei der CIFAR-10-Klassifizierung/-Generierung beobachteten Einschränkungen durch räumliche Funktionen gelöst werden. Ergebnisse in der Klassifizierung, die mit ViTs vergleichbar sind, und in der Bildproduktion, die mit Latent Diffusion vergleichbar sind, deuten darauf hin.

Das Staff glaubt, dass das Functa-Framework in diesen höherdimensionalen Modalitäten im großen Maßstab glänzen wird, da neuronale Felder die großen Mengen an redundanten Informationen, die in Array-Darstellungen dieser Modalitäten vorhanden sind, auf viel effizientere Weise erfassen.


Besuche die Papier Und Github. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 14k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

Tanushree Shenwai ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Expertise (IIT) in Bhubaneswar. Sie ist eine begeisterte Knowledge-Science-Enthusiastin und hat großes Interesse am Anwendungsbereich künstlicher Intelligenz in verschiedenen Bereichen. Ihre Leidenschaft gilt der Erforschung neuer technologischer Fortschritte und ihrer praktischen Anwendung.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here