Entwicklung grundlegender Modelle in der KI Teil3 | von Monodeep Mukherjee | Juni 2023

0
26


  1. Benchmarking von Basis-Modellen mit Language-Mannequin-as-an-Examiner (arXiv)

Autor: Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, Jiayin Zhang, Juanzi Li, Lei Hou

Zusammenfassung: Es wurden zahlreiche Benchmarks festgelegt, um die Leistung von Basismodellen bei der Beantwortung offener Fragen zu bewerten. Dies dient als umfassender Check der Fähigkeit eines Modells, Sprache auf ähnliche Weise wie Menschen zu verstehen und zu generieren. Die meisten dieser Arbeiten konzentrieren sich auf das Vorschlagen neuer Datensätze. Wir sehen jedoch zwei Hauptprobleme in früheren Benchmarking-Pipelines, nämlich das Testen von Lecks und die Automatisierung der Bewertung. In diesem Artikel schlagen wir ein neuartiges Benchmarking-Framework vor, Language-Mannequin-as-an-Examiner, bei dem der LM als sachkundiger Prüfer fungiert, der Fragen auf der Grundlage seines Wissens formuliert und Antworten auf referenzfreie Weise bewertet. Unser Framework ermöglicht eine mühelose Erweiterbarkeit, da verschiedene LMs als Prüfer übernommen werden können und die Fragen bei vielfältigeren Triggerthemen ständig aktualisiert werden können. Für eine umfassendere und gerechtere Bewertung entwickeln wir drei Strategien: (1) Wir weisen den LM-Prüfer an, Fragen in einer Vielzahl von Bereichen zu generieren, um eine umfassende Erfassung zu erreichen, und Folgefragen zu stellen, um tiefer in die Materie einzusteigen Bewertung. (2) Bei der Bewertung kombiniert der Prüfer sowohl Bewertungs- als auch Rangfolgemessungen und liefert so ein zuverlässiges Ergebnis, da es eng mit menschlichen Anmerkungen übereinstimmt. (3) Wir schlagen zusätzlich eine dezentrale Peer-Prüfungsmethode vor, um die Vorurteile eines einzelnen Prüfers zu beseitigen. Unsere Daten und Benchmarking-Ergebnisse finden Sie unter: https://lmexam.com.

2. Auf dem Weg zum kennzeichnungsfreien Szenenverständnis durch Imaginative and prescient Basis Fashions (arXiv)

Autor: Runnan Chen, Youquan Liu, Lingdong Kong, Nenglun Chen, Xinge Zhu, Yuexin Ma, Tongliang Liu, Wenping Wang

Zusammenfassung: Imaginative and prescient Basis-Modelle wie Contrastive Imaginative and prescient-Language Pre-training (CLIP) und Section Something (SAM) haben bei Bildklassifizierungs- und Segmentierungsaufgaben eine beeindruckende Zero-Shot-Leistung gezeigt. Die Einbindung von CLIP und SAM für das kennzeichnungsfreie Szenenverständnis muss jedoch noch untersucht werden. In diesem Artikel untersuchen wir das Potenzial von Imaginative and prescient-Basis-Modellen, die es Netzwerken ermöglichen, 2D- und 3D-Welten ohne gekennzeichnete Daten zu verstehen. Die größte Herausforderung besteht in der effektiven Überwachung von Netzwerken unter extrem verrauschten Pseudo-Labels, die durch CLIP generiert und bei der Ausbreitung von der 2D- in die 3D-Domäne noch verstärkt werden. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Methode der Cross-Modality Noisy Supervision (CNS) vor, die die Stärken von CLIP und SAM nutzt, um 2D- und 3D-Netzwerke gleichzeitig zu überwachen. Insbesondere führen wir eine Vorhersagekonsistenz-Regularisierung ein, um 2D- und 3D-Netzwerke gemeinsam zu trainieren, und erzwingen dann die latente Raumkonsistenz der Netzwerke mithilfe der robusten Merkmalsdarstellung des SAM. Experimente, die an verschiedenen Datensätzen im Innen- und Außenbereich durchgeführt wurden, zeigen die überlegene Leistung unserer Methode beim Verständnis offener 2D- und 3D-Umgebungen. Unser 2D- und 3D-Netzwerk erreicht eine beschriftungsfreie semantische Segmentierung mit 28,4 % bzw. 33,5 % mIoU auf ScanNet und verbessert sich um 4,7 % bzw. 7,9 %. Und für den nuScenes-Datensatz beträgt unsere Leistung 26,8 %, was einer Verbesserung von 6 % entspricht. Code wird veröffentlicht (https://github.com/runnanchen/Label-Free-Scene-Understanding)



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here