Lernen Sie PANOGEN kennen: Eine Generierungsmethode, die möglicherweise eine unendliche Anzahl unterschiedlicher Panoramaumgebungen basierend auf Text erstellen kann

0
27


Wenn jemand über künstliche Intelligenz spricht, denkt man als Erstes an einen Roboter, einen Androiden oder einen Humanoiden, der Dinge tun kann, die Menschen tun, mit der gleichen Wirkung, wenn nicht sogar besser. Wir haben alle solche speziellen Miniaturroboter gesehen, die in verschiedenen Bereichen eingesetzt werden, zum Beispiel auf Flughäfen, um Menschen zu bestimmten Verkaufsstellen zu leiten, bei Streitkräften, um schwierige Situationen zu navigieren und zu bewältigen, und sogar als Tracker.

All dies sind einige erstaunliche Beispiele für KI im wahrsten Sinne des Wortes. Wie bei jedem anderen KI-Modell müssen auch hier einige grundlegende Anforderungen erfüllt werden, beispielsweise die Wahl des Algorithmus, der große Datenbestand, auf dem trainiert werden soll, die Feinabstimmung und die anschließende Bereitstellung.

Diese Artwork von Drawback wird oft als Visible-and-Language-Navigation-Drawback bezeichnet. Visions- und Sprachnavigation in der künstlichen Intelligenz (KI) bezieht sich auf die Fähigkeit eines KI-Methods, die Welt mithilfe visueller und sprachlicher Informationen zu verstehen und zu navigieren. Es kombiniert Pc Imaginative and prescient, Verarbeitung natürlicher Sprache und Techniken des maschinellen Lernens, um intelligente Systeme zu bauen, die grafische Szenen wahrnehmen, Textanweisungen verstehen und in physischen Umgebungen navigieren können.

Viele Modelle wie CLIP, RecBERT und PREVALENT arbeiten an diesen Problemen, aber alle diese Modelle leiden stark unter zwei Hauptproblemen.

Begrenzte Daten und Datenverzerrung: Für das Coaching visueller und lernender Systeme sind große Mengen gekennzeichneter Daten erforderlich. Die Beschaffung solcher Daten kann jedoch in bestimmten Bereichen teuer, zeitaufwändig oder sogar unpraktisch sein. Darüber hinaus ist die Verfügbarkeit vielfältiger und repräsentativer Daten von entscheidender Bedeutung, um Verzerrungen beim Systemverständnis und bei der Entscheidungsfindung zu vermeiden. Wenn die Trainingsdaten verzerrt sind, kann dies zu unfairen oder ungenauen Vorhersagen und Verhaltensweisen führen.

Verallgemeinerung: KI-Systeme müssen intestine auf unsichtbare oder neuartige Daten verallgemeinern können. Sie sollten sich die Trainingsdaten merken und die zugrunde liegenden Konzepte und Muster erlernen, die auf neue Beispiele angewendet werden können. Überanpassung tritt auf, wenn ein Modell bei den Trainingsdaten gute Leistungen erbringt, sich aber nicht auf neue Daten verallgemeinern lässt. Das Erreichen einer robusten Generalisierung ist eine große Herausforderung, insbesondere bei komplexen visuellen Aufgaben, die Variationen in den Lichtverhältnissen, Blickwinkeln und dem Erscheinungsbild von Objekten beinhalten.

Obwohl viele Anstrengungen unternommen wurden, um dem Agenten das Erlernen verschiedener Befehlseingaben zu erleichtern, basieren alle diese Datensätze auf denselben 3D-Raumumgebungen von Matterport3D, das nur 60 verschiedene Raumumgebungen für die Schulung der Agenten enthält.

PanoGen, der Durchbruch im KI-Bereich, hat eine starke Lösung für dieses Drawback geliefert. Mit PanoGen wird nun die Datenknappheit behoben und auch die Korpuserstellung und Datendiversifizierung wurden optimiert.

PanoGen ist eine generative Methode, die auf Foundation des Textes unendlich unterschiedliche Panoramabilder (Umgebungen) erstellen kann. Sie haben Raumbeschreibungen gesammelt, indem sie die mit dem Matterport3D-Datensatz verfügbaren Raumbilder beschriftet haben, und das SoTA-Textual content-zu-Bild-Modell verwendet, um Panoramaansichten (Umgebungen) zu generieren. Anschließend übermalen sie das generierte Bild rekursiv, um eine konsistente 360-Grad-Panoramaansicht zu erstellen. Die entwickelten Panoramabilder weisen eine ähnliche semantische Informationskonditionierung auf Textbeschreibungen auf, die sicherstellt, dass das gleichzeitige Auftreten von Objekten im Panorama der menschlichen Instinct folgt und durch Bildübermalung genügend Vielfalt in der Raumerscheinung und -anordnung schafft.

Sie haben erwähnt, dass es Versuche gegeben hat, die Vielfalt der Trainingsdaten zu erhöhen und den Korpus zu verbessern. Alle diese Versuche basierten auf dem Mischen von Szenen aus HM3D (Habitat Matterport 3D), was wiederum das gleiche Drawback aufwirft, dass alle Einstellungen mehr oder weniger mit Matterport3D vorgenommen wurden.

PanoGen löst dieses Drawback, da es eine unendliche Anzahl an Trainingsdaten mit so vielen Variationen wie nötig erstellen kann.

Das Papier erwähnt auch, dass sie mit dem PanoGen-Ansatz den aktuellen SoTA übertroffen und den neuen SoTA für Room-to-Room-, Room-for-Room- und CVDN-Datensätze erreicht haben.

Quelle: https://arxiv.org/abs/2305.19195
BhDji4u JZ872Ymjo4 RY0DMuqJ cE6xA1 Y YzJft4H10ZGNpPli0ACKxWKMLo7VAZ1ymma3XRqQOcLZvBHvf88RQKIIFMGus9 KccIuIMWoZntyf1k1iIvzfQSaeQZbKMTXiyWb2IrbeUrCAD o
Quelle: https://arxiv.org/abs/2305.19195

Zusammenfassend lässt sich sagen, dass PanoGen eine bahnbrechende Entwicklung ist, die die wichtigsten Herausforderungen bei Problemen der visuellen und sprachlichen Navigation angeht. Mit der Fähigkeit, unbegrenzt viele Trainingsbeispiele mit vielen Variationen zu generieren, eröffnet PanoGen KI-Systemen neue Möglichkeiten, die reale Welt so zu verstehen und zu navigieren, wie es Menschen tun. Die bemerkenswerte Fähigkeit des Ansatzes, die SoTA zu übertreffen, unterstreicht sein Potenzial, KI-gesteuerte VLN-Aufgaben zu revolutionieren.


Besuche die Papier, CodeUnd Projekt. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Anant ist Informatikingenieur und arbeitet derzeit als Datenwissenschaftler mit Erfahrung in den Bereichen Finanzen und KI-Produkte als Dienstleistung. Sein Ziel ist es, KI-gestützte Lösungen zu entwickeln, die bessere Datenpunkte schaffen und Alltagsprobleme wirkungsvoll und effizient lösen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here