Arbeiten mit optischer Flussschätzung im maschinellen Lernen Teil2 | von Monodeep Mukherjee | Juni 2023

0
24


  1. FlowText: Synthetisieren realistischer Szenentextvideos mit optischer Flussschätzung (arXiv)

Autor: Yuzhong Zhao, Weijia Wu, Zhuang Li, Jiahong Li, Weiqiang Wang

Zusammenfassung: Aktuelle Videotext-Recognizing-Methoden können eine bessere Leistung erzielen, wenn sie mit ausreichend gekennzeichneten Trainingsdaten ausgestattet sind. Allerdings ist die manuelle Kennzeichnung von Daten zeitaufwändig und arbeitsintensiv. Um dieses Drawback zu lösen, ist die Verwendung kostengünstiger synthetischer Daten eine vielversprechende Various. In diesem Artikel wird eine neuartige Videotext-Synthesetechnik namens FlowText vorgestellt, die die Schätzung des optischen Flusses nutzt, um eine große Menge an Textvideodaten zu geringen Kosten zu synthetisieren und so robuste Videotext-Spotter zu trainieren. Im Gegensatz zu bestehenden Methoden, die sich auf die Synthese auf Bildebene konzentrieren, konzentriert sich FlowText auf die Synthese zeitlicher Informationen von Textinstanzen über aufeinanderfolgende Frames hinweg mithilfe des optischen Flusses. Diese zeitlichen Informationen sind entscheidend für die genaue Verfolgung und Erkennung von Textual content in Videosequenzen, einschließlich Textbewegung, Verzerrung, Erscheinen, Verschwinden, Schutz und Unschärfe. Experimente zeigen, dass die Kombination allgemeiner Detektoren wie TransDETR mit dem vorgeschlagenen FlowText bemerkenswerte Ergebnisse bei verschiedenen Datensätzen wie ICDAR2015video und ICDAR2013video liefert. Der Code ist verfügbar unter https://github.com/callsys/FlowText

2. SSTM: Spatiotemporal Recurrent Transformers for Multi-Body Optical Move Estimation (arXiv)

Autor: Fisseha Admasu Ferede, Madhusudhanan Balasubramanian

Zusammenfassung: Ungenaue Schätzungen des optischen Flusses in und in der Nähe von verdeckten Regionen sowie außerhalb der Grenzen sind zwei der aktuellen erheblichen Einschränkungen von Algorithmen zur Schätzung des optischen Flusses. Aktuelle hochmoderne Algorithmen zur Schätzung des optischen Flusses sind zweibildbasierte Methoden, bei denen der optische Fluss sequentiell für jedes aufeinanderfolgende Bildpaar in einer Sequenz geschätzt wird. Während dieser Ansatz gute Flussschätzungen liefert, ist er nicht in der Lage, optische Flüsse in verdeckten Regionen zu verallgemeinern, was vor allem auf begrenzte lokale Hinweise auf sich bewegende Elemente in einer Szene zurückzuführen ist. In dieser Arbeit schlagen wir eine lernbasierte Methode zur Schätzung des optischen Flusses mit mehreren Bildern vor, die zwei oder mehr aufeinanderfolgende optische Flüsse parallel aus Bildsequenzen mit mehreren Bildern schätzt. Unsere zugrunde liegende Hypothese ist, dass wir durch das Verständnis der zeitlichen Szenendynamik aus längeren Sequenzen mit mehr als zwei Bildern pixelweise Abhängigkeiten in einem größeren räumlich-zeitlichen Bereich charakterisieren, komplexe Bewegungsmuster verallgemeinern und dadurch die Genauigkeit optischer Flussschätzungen in verdeckten Regionen verbessern können. Wir präsentieren lernbasierte räumlich-zeitliche rekurrente Transformatoren für die Multi-Body-basierte optische Flussschätzung (SSTMs). Unsere Methode nutzt 3D Convolutional Gated Recurrent Items (3D-ConvGRUs) und raumzeitliche Transformatoren, um wiederkehrende Raum-Zeit-Bewegungsdynamiken und globale Abhängigkeiten in der Szene zu lernen und eine verallgemeinerte Schätzung des optischen Flusses bereitzustellen. Im Vergleich zu den neuesten hochmodernen Zwei-Body- und Multi-Body-Methoden für reale und synthetische Datensätze struggle die Leistung der SSTMs in abgedeckten und außerhalb der Grenzen liegenden Regionen deutlich höher. Unter allen veröffentlichten hochmodernen Multi-Body-Methoden erzielte SSTM hochmoderne Ergebnisse bei den Benchmark-Datensätzen Sintel Ultimate und KITTI2015



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here