Open-Source-TAPIR von Deepmind Researchers: Ein neues KI-Modell zum Tracking Any Point (TAP), das einen Abfragepunkt in einer Videosequenz effektiv verfolgt

0
25


Pc Imaginative and prescient ist eines der beliebtesten Gebiete der künstlichen Intelligenz. Die mithilfe von Pc Imaginative and prescient entwickelten Modelle sind in der Lage, aus verschiedenen Medientypen, seien es digitale Bilder, Movies oder andere visuelle Eingaben, aussagekräftige Informationen abzuleiten. Es lehrt Maschinen, visuelle Informationen wahrzunehmen und zu verstehen und dann auf die Particulars zu reagieren. Pc Imaginative and prescient hat mit der Einführung eines neuen Modells namens „Monitoring Any Level with per-frame Initialization and Temporal Refinement“ (TAPIR) einen bedeutenden Sprung nach vorne gemacht. TAPIR wurde mit dem Ziel entwickelt, einen bestimmten Punkt von Interesse in einer Videosequenz effektiv zu verfolgen.

Der Algorithmus hinter dem TAPIR-Modell wurde von einem Forscherteam von Google DeepMind, VGG, Division of Engineering Science und der Universität Oxford entwickelt und besteht aus zwei Phasen – einer Matching-Part und einer Verfeinerungsphase. In der Matching-Part analysiert das TAPIR-Modell jeden Videosequenz-Body separat, um einen geeigneten Kandidatenpunkt für den Abfragepunkt zu finden. Ziel dieses Schritts ist es, den wahrscheinlichsten Bezugspunkt des Abfragepunkts in jedem Body zu identifizieren. Um sicherzustellen, dass das TAPIR-Modell der Bewegung des Abfragepunkts über das Video folgen kann, wird dieser Vorgang Body für Body ausgeführt.

Auf die Matching-Part, in der mögliche Punktübereinstimmungen identifiziert werden, folgt die Verfeinerungsphase. In dieser Part aktualisiert das TAPIR-Modell sowohl die Trajektorie, additionally den Weg, dem der Abfragepunkt folgt, als auch die Abfragemerkmale basierend auf lokalen Korrelationen und berücksichtigt somit die umgebenden Informationen in jedem Body, um die Genauigkeit und Präzision der Verfolgung zu verbessern Abfragepunkt. Die Verfeinerungsphase verbessert die Fähigkeit des Modells, die Bewegung des Abfragepunkts präzise zu verfolgen und sich durch die Integration lokaler Korrelationen an Variationen in der Videosequenz anzupassen.

Für die Evaluierung des TAPIR-Modells hat das Group den TAP-Vid-Benchmark verwendet, einen standardisierten Evaluierungsdatensatz für Video-Monitoring-Aufgaben. Die Ergebnisse zeigten, dass das TAPIR-Modell eine deutlich bessere Leistung erbringt als die Basistechniken. Die Leistungsverbesserung wurde mithilfe einer Metrik namens Common Jaccard (AJ) gemessen, anhand derer gezeigt wurde, dass das TAPIR-Modell im Vergleich zu anderen Methoden des DAVIS-Benchmarks (Densely Annotated VIdeo Segmentation) eine absolute Verbesserung des AJ um etwa 20 % erzielt.

Das Modell wurde entwickelt, um eine schnelle parallele Inferenz bei langen Videosequenzen zu ermöglichen, dh es kann mehrere Bilder gleichzeitig verarbeiten und so die Effizienz von Monitoring-Aufgaben verbessern. Das Group hat erwähnt, dass das Modell dwell angewendet werden kann, sodass es Punkte verarbeiten und verfolgen kann, wenn neue Videobilder hinzugefügt werden. Es kann 256 Punkte auf einem 256×256-Video mit einer Price von etwa 40 Bildern professional Sekunde (fps) verfolgen und kann auch erweitert werden, um Filme mit höherer Auflösung zu verarbeiten, was ihm Flexibilität bei der Verarbeitung von Movies unterschiedlicher Größe und Qualität gibt.

Das Group hat zwei On-line-Demos von Google Colab bereitgestellt, damit die Benutzer TAPIR ohne Set up ausprobieren können. Die erste Colab-Demo ermöglicht es Benutzern, das Modell in ihren eigenen Movies auszuführen und bietet so ein interaktives Erlebnis zum Testen und Beobachten der Leistung des Modells. Die zweite Demo konzentriert sich auf die On-line-Ausführung von TAPIR. Außerdem können Benutzer TAPIR dwell ausführen, indem sie Punkte auf ihren eigenen Webcams mit einer modernen GPU verfolgen, indem sie die bereitgestellte Codebasis klonen.


Besuche die Papier Und Projekt. Vergessen Sie nicht, mitzumachen unser 24k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com


🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Tanya Malhotra studiert im letzten Jahr an der College of Petroleum & Vitality Research in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen.
Sie ist eine Knowledge-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here