Untersuchung von Bild-Sprachtransformatoren für das Verbverständnis

0
25


Die Verknüpfung der Sprache mit dem Sehen ist ein grundlegendes Drawback für viele reale KI-Systeme, beispielsweise beim Abrufen von Bildern oder beim Erstellen von Beschreibungen für Sehbehinderte. Für den Erfolg dieser Aufgaben ist es erforderlich, dass Modelle verschiedene Aspekte der Sprache wie Objekte und Verben mit Bildern in Beziehung setzen. Um beispielsweise zwischen den beiden Bildern in der mittleren Spalte unten zu unterscheiden, müssen Modelle zwischen den Verben „fangen“ und „treten“ unterscheiden. Das Verstehen von Verben ist besonders schwierig, da es nicht nur das Erkennen von Objekten erfordert, sondern auch, wie verschiedene Objekte in einem Bild zueinander in Beziehung stehen. Um diese Schwierigkeit zu überwinden, führen wir den SVO-Probes-Datensatz ein und verwenden ihn, um Sprach- und Sehmodelle auf Verbverständnis zu untersuchen.

Insbesondere berücksichtigen wir multimodale Transformatormodelle (z. B. Lu et al., 2019; Chen et al., 2020; Tan und Bansal, 2019; Li et al., 2020), die sich bei einer Vielzahl von Sprachen und Visionen als erfolgreich erwiesen haben Aufgaben. Trotz der starken Leistung bei Benchmarks ist jedoch nicht klar, ob diese Modelle über ein feinkörniges multimodales Verständnis verfügen. Insbesondere zeigen frühere Arbeiten, dass Sprach- und Sehmodelle bei Benchmarks ohne multimodales Verständnis erfolgreich sein können: zum Beispiel bei der Beantwortung von Fragen zu Bildern, die nur auf Sprachprioritäten basieren (Agrawal et al., 2018) oder beim „Halluzinieren“ von Objekten, die nicht im Bild sind bei der Bildunterschrift (Rohrbach et al., 2018). Um Modellbeschränkungen zu antizipieren, gehen Sie wie Shekhar et al. vor. Schlagen Sie spezielle Auswertungen vor, um Modelle systematisch auf Sprachverständnis zu untersuchen. Allerdings sind frühere Sondensätze hinsichtlich der Anzahl der Objekte und Verben begrenzt. Wir haben SVO-Probes entwickelt, um potenzielle Einschränkungen beim Verbverständnis in aktuellen Modellen besser bewerten zu können.

SVO-Probes umfasst 48.000 Bild-Satz-Paare und testet das Verständnis für mehr als 400 Verben. Jeder Satz kann in ein -Triplett (oder SVO-Triplett) unterteilt und mit positiven und negativen Beispielbildern gepaart werden. Die Negativbeispiele unterscheiden sich nur in einer Hinsicht: Das Subjekt, Verb oder Objekt wird geändert. Die obige Abbildung zeigt Negativbeispiele, bei denen das Subjekt (hyperlinks), das Verb (Mitte) oder das Objekt (rechts) nicht mit dem Bild übereinstimmt. Diese Aufgabenformulierung ermöglicht es, zu isolieren, mit welchen Teilen des Satzes ein Modell die größten Probleme hat. Es macht SVO-Probes auch anspruchsvoller als Standardaufgaben zum Abrufen von Bildern, bei denen detrimental Beispiele oft überhaupt keinen Bezug zum Abfragesatz haben.

Um SVO-Sonden zu erstellen, haben wir eine Bildsuche abfragen mit SVO-Tripletts aus einem gemeinsamen Trainingsdatensatz, Conceptual Captions (Sharma et al. 2018). Da die Bildsuche verrauscht sein kann, filtert ein vorläufiger Annotationsschritt die abgerufenen Bilder, um sicherzustellen, dass wir über einen sauberen Satz von Bild-SVO-Paaren verfügen. Da Transformatoren auf Bild-Satz-Paaren und nicht auf Bild-SVO-Paaren trainiert werden, benötigen wir Bild-Satz-Paare, um unser Modell zu prüfen. Um Sätze zu sammeln, die jedes Bild beschreiben, schreiben Annotatoren einen kurzen Satz für jedes Bild, das das SVO-Triplett enthält. Wenn beispielsweise das SVO-Triplett gegeben ist, könnte ein Annotator den Satz „Ein Tier liegt im Gras“ schreiben. Anschließend verwenden wir die SVO-Anmerkungen, um jeden Satz mit einem negativen Bild zu verknüpfen, und bitten die Annotatoren, in einem letzten Annotationsschritt Adverse zu überprüfen. Einzelheiten finden Sie in der Abbildung unten.

623348fb22a815412339f8b5 SVO drawing3

Wir untersuchen, ob multimodale Transformatoren Beispiele genau als positiv oder negativ klassifizieren können. Das folgende Balkendiagramm veranschaulicht unsere Ergebnisse. Unser Datensatz ist eine Herausforderung: Unser standardmäßiges multimodales Transformatormodell erreicht insgesamt eine Genauigkeit von 64,3 % (Likelihood liegt bei 50 %). Während die Genauigkeit bei Subjekten und Objekten 67,0 % bzw. 73,4 % beträgt, sinkt die Leistung bei Verben auf 60,8 %. Dieses Ergebnis zeigt, dass die Verberkennung für Seh- und Sprachmodelle tatsächlich eine Herausforderung darstellt.

623349754dd07eedab303af7 SVO drawing1

Wir untersuchen auch, welche Modellarchitekturen in unserem Datensatz am besten abschneiden. Überraschenderweise schneiden Modelle mit schwächerer Bildmodellierung besser ab als das Standardtransformatormodell. Eine Hypothese ist, dass unser Standardmodell (mit stärkerer Fähigkeit zur Bildmodellierung) den Zugsatz überpasst. Da beide Modelle bei anderen Sprach- und Sehaufgaben schlechter abschneiden, beleuchtet unsere gezielte Untersuchungsaufgabe Modellschwächen, die bei anderen Benchmarks nicht beobachtet werden.

Insgesamt stellen wir fest, dass multimodale Transformatoren trotz beeindruckender Leistung bei Benchmarks immer noch Probleme mit dem feinkörnigen Verständnis haben, insbesondere mit dem feinkörnigen Verbverständnis. Wir hoffen, dass SVO-Probes dazu beitragen können, die Erforschung des Verbverständnisses in Sprach- und Sehmodellen voranzutreiben und gezieltere Sondendatensätze anzuregen.

Besuchen Sie unsere SVO-Sonden Benchmark Und Modelle auf GitHub: Benchmark und Modelle.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here