Web-Scale-Training entfesselt: Deepmind stellt OWLv2 und OWL-ST vor, die bahnbrechenden Tools zur Objekterkennung mit offenem Vokabular, unterstützt durch beispiellose Selbsttrainingstechniken

0
22


Die Objekterkennung im offenen Vokabular ist ein entscheidender Aspekt verschiedener realer Laptop-Imaginative and prescient-Aufgaben. Die begrenzte Verfügbarkeit von Erkennungstrainingsdaten und die Fragilität vorab trainierter Modelle führen jedoch häufig zu Problemen mit der Leistung und Skalierbarkeit, die nicht zufriedenstellend sind.

Um dieser Herausforderung zu begegnen, stellt das DeepMind-Forschungsteam in seinem neuesten Artikel das OWLv2-Modell vor: „Skalierung der Objekterkennung im offenen Vokabular.„Diese optimierte Architektur verbessert die Trainingseffizienz und integriert das OWL-ST-Selbsttrainingsrezept, wodurch die Erkennungsleistung erheblich verbessert und modernste Ergebnisse bei der Erkennung offener Vokabeln erzielt werden.“

Das Hauptziel dieser Arbeit besteht darin, den Beschriftungsraum, die Annotationsfilterung und die Trainingseffizienz für den Selbsttrainingsansatz zur Erkennung offener Vokabeln zu optimieren und letztendlich eine robuste und skalierbare Leistung offener Vokabeln mit begrenzten beschrifteten Daten zu erreichen.

Der vorgeschlagene Selbsttrainingsansatz besteht aus drei Schlüsselschritten:

  1. Das Group nutzt einen vorhandenen Open-Vocabulary-Detektor, um eine Open-Field-Erkennung in WebLI durchzuführen, einem umfangreichen Datensatz von Internet-Bild-Textual content-Paaren.
  2. Sie nutzen OWL-ViT CLIP-L/14, um alle WebLI-Bilder mit Bounding-Field-Pseudoanmerkungen zu kommentieren.
  3. Sie optimieren das trainierte Modell mithilfe von Menschen kommentierten Erkennungsdaten und verfeinern so seine Leistung weiter.

Insbesondere nutzen die Forscher eine Variante der OWL-ViT-Architektur, um effektivere Detektoren zu trainieren. Diese Architektur nutzt kontrastiv trainierte Bild-Textual content-Modelle, um Bild- und Textual content-Encoder zu initialisieren, während die Erkennungsköpfe zufällig initialisiert werden.

Während der Trainingsphase verwendet das Group die gleichen Verluste und erweitert Abfragen mit „Pseudo-Negativen“ aus der OWL-ViT-Architektur, wodurch die Trainingseffizienz optimiert wird, um die Nutzung der verfügbaren beschrifteten Bilder zu maximieren.

Sie integrieren auch zuvor vorgeschlagene Praktiken für groß angelegte Transformer-Schulungen, um die Trainingseffizienz weiter zu steigern. Dadurch reduziert das OWLv2-Modell die Trainings-FLOPS um etwa 50 % und beschleunigt den Trainingsdurchsatz um das Zweifache im Vergleich zum ursprünglichen OWL-ViT-Modell.

Das Group vergleicht seinen vorgeschlagenen Ansatz in seiner empirischen Studie mit früheren hochmodernen Detektoren für offenes Vokabular. Die OWL-ST-Technik verbessert die durchschnittliche Präzision (AP) bei seltenen LVIS-Klassen von 31,2 % auf 44,6 %. Darüber hinaus wird durch die Kombination des OWL-ST-Rezepts mit der OWLv2-Architektur eine neue Leistung auf dem neuesten Stand der Technik erreicht.

Insgesamt verbessert das in diesem Dokument vorgestellte OWL-ST-Rezept die Erkennungsleistung erheblich, indem es die schwache Überwachung aus umfangreichen Webdaten nutzt und so ein Internet-Scale-Coaching für die Lokalisierung in der offenen Welt ermöglicht. Dieser Ansatz befasst sich mit den Einschränkungen, die sich aus der Knappheit gekennzeichneter Erkennungsdaten ergeben, und zeigt das Potenzial für eine robuste Objekterkennung mit offenem Vokabular auf skalierbare Weise auf.


Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 25k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


Empfohlene Instruments:

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Niharika ist Praktikantin im Bereich technische Beratung bei Marktechpost. Sie studiert im dritten Jahr und macht derzeit ihren B.Tech am Indian Institute of Know-how (IIT) in Kharagpur. Sie ist eine äußerst enthusiastische Individual mit großem Interesse an maschinellem Lernen, Datenwissenschaft und KI und eine begeisterte Leserin der neuesten Entwicklungen in diesen Bereichen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here