Die Verknüpfung der Sprache mit dem Sehen ist ein grundlegendes Drawback für viele reale KI-Systeme, beispielsweise beim Abrufen von Bildern oder beim Erstellen von Beschreibungen für Sehbehinderte. Für den Erfolg dieser Aufgaben ist es erforderlich, dass Modelle verschiedene Aspekte der Sprache wie Objekte und Verben mit Bildern in Beziehung setzen. Um beispielsweise zwischen den beiden Bildern in der mittleren Spalte unten zu unterscheiden, müssen Modelle zwischen den Verben „fangen“ und „treten“ unterscheiden. Das Verstehen von Verben ist besonders schwierig, da es nicht nur das Erkennen von Objekten erfordert, sondern auch, wie verschiedene Objekte in einem Bild zueinander in Beziehung stehen. Um diese Schwierigkeit zu überwinden, führen wir den SVO-Probes-Datensatz ein und verwenden ihn, um Sprach- und Sehmodelle auf Verbverständnis zu untersuchen.
Insbesondere berücksichtigen wir multimodale Transformatormodelle (z. B. Lu et al., 2019; Chen et al., 2020; Tan und Bansal, 2019; Li et al., 2020), die sich bei einer Vielzahl von Sprachen und Visionen als erfolgreich erwiesen haben Aufgaben. Trotz der starken Leistung bei Benchmarks ist jedoch nicht klar, ob diese Modelle über ein feinkörniges multimodales Verständnis verfügen. Insbesondere zeigen frühere Arbeiten, dass Sprach- und Sehmodelle bei Benchmarks ohne multimodales Verständnis erfolgreich sein können: zum Beispiel bei der Beantwortung von Fragen zu Bildern, die nur auf Sprachprioritäten basieren (Agrawal et al., 2018) oder beim „Halluzinieren“ von Objekten, die nicht im Bild sind bei der Bildunterschrift (Rohrbach et al., 2018). Um Modellbeschränkungen zu antizipieren, gehen Sie wie Shekhar et al. vor. Schlagen Sie spezielle Auswertungen vor, um Modelle systematisch auf Sprachverständnis zu untersuchen. Allerdings sind frühere Sondensätze hinsichtlich der Anzahl der Objekte und Verben begrenzt. Wir haben SVO-Probes entwickelt, um potenzielle Einschränkungen beim Verbverständnis in aktuellen Modellen besser bewerten zu können.
SVO-Probes umfasst 48.000 Bild-Satz-Paare und testet das Verständnis für mehr als 400 Verben. Jeder Satz kann in ein
Um SVO-Sonden zu erstellen, haben wir eine Bildsuche abfragen mit SVO-Tripletts aus einem gemeinsamen Trainingsdatensatz, Conceptual Captions (Sharma et al. 2018). Da die Bildsuche verrauscht sein kann, filtert ein vorläufiger Annotationsschritt die abgerufenen Bilder, um sicherzustellen, dass wir über einen sauberen Satz von Bild-SVO-Paaren verfügen. Da Transformatoren auf Bild-Satz-Paaren und nicht auf Bild-SVO-Paaren trainiert werden, benötigen wir Bild-Satz-Paare, um unser Modell zu prüfen. Um Sätze zu sammeln, die jedes Bild beschreiben, schreiben Annotatoren einen kurzen Satz für jedes Bild, das das SVO-Triplett enthält. Wenn beispielsweise das SVO-Triplett

Wir untersuchen, ob multimodale Transformatoren Beispiele genau als positiv oder negativ klassifizieren können. Das folgende Balkendiagramm veranschaulicht unsere Ergebnisse. Unser Datensatz ist eine Herausforderung: Unser standardmäßiges multimodales Transformatormodell erreicht insgesamt eine Genauigkeit von 64,3 % (Likelihood liegt bei 50 %). Während die Genauigkeit bei Subjekten und Objekten 67,0 % bzw. 73,4 % beträgt, sinkt die Leistung bei Verben auf 60,8 %. Dieses Ergebnis zeigt, dass die Verberkennung für Seh- und Sprachmodelle tatsächlich eine Herausforderung darstellt.

Wir untersuchen auch, welche Modellarchitekturen in unserem Datensatz am besten abschneiden. Überraschenderweise schneiden Modelle mit schwächerer Bildmodellierung besser ab als das Standardtransformatormodell. Eine Hypothese ist, dass unser Standardmodell (mit stärkerer Fähigkeit zur Bildmodellierung) den Zugsatz überpasst. Da beide Modelle bei anderen Sprach- und Sehaufgaben schlechter abschneiden, beleuchtet unsere gezielte Untersuchungsaufgabe Modellschwächen, die bei anderen Benchmarks nicht beobachtet werden.
Insgesamt stellen wir fest, dass multimodale Transformatoren trotz beeindruckender Leistung bei Benchmarks immer noch Probleme mit dem feinkörnigen Verständnis haben, insbesondere mit dem feinkörnigen Verbverständnis. Wir hoffen, dass SVO-Probes dazu beitragen können, die Erforschung des Verbverständnisses in Sprach- und Sehmodellen voranzutreiben und gezieltere Sondendatensätze anzuregen.
Besuchen Sie unsere SVO-Sonden Benchmark Und Modelle auf GitHub: Benchmark und Modelle.