Lernen Sie CapPa kennen: DeepMinds innovative Strategie zur Bildunterschrift, die das Vision-Pre-Training revolutioniert und CLIP in puncto Skalierbarkeit und Lernleistung konkurriert

0
25


In einem kürzlich erschienenen Artikel mit dem Titel „Picture Captioners Are Scalable Imaginative and prescient Learners Too“ wird ein faszinierender Ansatz namens CapPa vorgestellt, der darauf abzielt, Bildunterschriften als wettbewerbsfähige Pre-Coaching-Strategie für Seh-Rückgrate zu etablieren. Das von einem DeepMind-Forschungsteam verfasste Papier hebt das Potenzial von CapPa hervor, mit der beeindruckenden Leistung von Contrastive Language Picture Pretraining (CLIP) zu konkurrieren und gleichzeitig Einfachheit, Skalierbarkeit und Effizienz zu bieten.

Die Forscher verglichen Cap, ihre Strategie zur Bildunterschrift und den weit verbreiteten CLIP-Ansatz ausführlich. Sie haben die Rechenleistung, die Modellkapazität und die Trainingsdaten vor dem Coaching zwischen den beiden Strategien sorgfältig abgeglichen, um eine faire Bewertung sicherzustellen. Die Forscher fanden heraus, dass die Cap-Imaginative and prescient-Backbones die CLIP-Modelle bei mehreren Aufgaben übertrafen, darunter die Klassifizierung von wenigen Bildern, die Untertitelung, die optische Zeichenerkennung (OCR) und die visuelle Beantwortung von Fragen (VQA). Darüber hinaus erzielten Cap-Imaginative and prescient-Backbones bei der Übertragung auf Klassifizierungsaufgaben mit großen beschrifteten Trainingsdaten eine mit CLIP vergleichbare Leistung, was auf ihre potenzielle Überlegenheit bei multimodalen Downstream-Aufgaben hinweist.

Um die Leistung von Cap weiter zu verbessern, führten die Forscher das CapPa-Vortrainingsverfahren ein, das autoregressive Vorhersage (Cap) mit paralleler Vorhersage (Pa) kombiniert. Sie verwendeten Imaginative and prescient Transformer (ViT) als Imaginative and prescient-Encoder und nutzten dessen starke Fähigkeiten beim Bildverständnis. Zur Vorhersage von Bildunterschriften nutzten die Forscher eine standardmäßige Transformer-Decoder-Architektur mit integrierter Kreuzaufmerksamkeit, um die ViT-codierte Sequenz effektiv im Decodierungsprozess zu nutzen.

Anstatt das Modell in der Trainingsphase ausschließlich autoregressiv zu trainieren, wählten die Forscher einen parallelen Vorhersageansatz, bei dem das Modell alle Untertitel-Tokens unabhängig und gleichzeitig vorhersagt. Auf diese Weise kann sich der Decoder stark auf Bildinformationen verlassen, um die Vorhersagegenauigkeit zu verbessern, da er parallel Zugriff auf den gesamten Satz von Token hat. Mit dieser Strategie kann der Decoder von dem reichhaltigen visuellen Kontext profitieren, den das Bild bietet.

Die Forscher führten eine Studie durch, um die Leistung von CapPa im Vergleich zu herkömmlichem Cap und dem hochmodernen CLIP-Ansatz für ein breites Spektrum nachgelagerter Aufgaben, einschließlich Bildklassifizierung, Untertitelung, OCR und VQA, zu bewerten. Die Ergebnisse waren sehr vielversprechend, da CapPa Cap bei quick allen Aufgaben durchweg übertraf. Darüber hinaus erzielte CapPa im Vergleich zu CLIP*, das mit der gleichen Chargengröße trainiert wurde, eine vergleichbare oder bessere Leistung. Darüber hinaus zeigte CapPa starke Zero-Shot-Fähigkeiten, die eine effektive Verallgemeinerung auf unbekannte Aufgaben ermöglichten, und zeigte vielversprechende Skalierungseigenschaften, was auf sein Potenzial für die Verarbeitung größerer Datensätze und Modelle hinweist.

Insgesamt etabliert die in der Arbeit vorgestellte Arbeit die Bildunterschrift als wettbewerbsfähige Pre-Coaching-Strategie für das Rückgrat des Sehvermögens. Durch die Demonstration der Wirksamkeit von CapPa bei der Erzielung qualitativ hochwertiger Ergebnisse bei verschiedenen nachgelagerten Aufgaben hofft das Forschungsteam, die weitere Erforschung der Untertitelung als Vortrainingsaufgabe für Imaginative and prescient-Encoder anzuregen. Mit seiner Einfachheit, Skalierbarkeit und Effizienz eröffnet CapPa spannende Möglichkeiten, visionsbasierte Modelle voranzutreiben und die Grenzen des multimodalen Lernens zu erweitern.


Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Niharika ist Praktikantin im Bereich technische Beratung bei Marktechpost. Sie studiert im dritten Jahr und macht derzeit ihren B.Tech am Indian Institute of Know-how (IIT) in Kharagpur. Sie ist eine äußerst enthusiastische Particular person mit großem Interesse an maschinellem Lernen, Datenwissenschaft und KI und eine begeisterte Leserin der neuesten Entwicklungen in diesen Bereichen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here