Hinweis: Das vollständige Video finden Sie hier Hier. Es ist der Lernprogramm zum ICASSP 2022-Tutorial zum Thema „Transformer Architectures for Multimodal Sign Processing and Determination Making“ von zwei Dozenten: Chen Sun Und Boqing Gong.
Ziel des Tutorials ist es, dem Publikum Wissen über die transformatorischen neuronalen Architekturen und die damit verbundenen Lernalgorithmen zu vermitteln.
Die Transformer-Architekturen haben sich zu den bevorzugten Modellen für die Verarbeitung natürlicher Sprache (NLP) entwickelt. Im Bereich Laptop Imaginative and prescient ist das Interesse an Finish-to-Finish-Transformern in letzter Zeit gestiegen. Dies hat zu Bemühungen geführt, manuelles Function-Engineering und Vorurteile durch universelle neuronale Architekturen zu ersetzen, die auf Daten trainiert werden. Transformatorarchitekturen haben auch in verschiedenen Bereichen wie multimodalem Lernen, Proteinstrukturvorhersage und Entscheidungsfindung Spitzenleistungen erbracht.
Diese Ergebnisse zeigen das erhebliche Potenzial der Transformer-Architekturen über die genannten Bereiche hinaus, insbesondere in der Signalverarbeitungs-Group (SP).
Anschließend werden wir verschiedene multimodale Modelle im Zusammenhang mit der Signalverarbeitung mit Cross-Modalität vorstellen.
In der aktuellen Forschung „Prompting the Hidden Expertise of Internet-Scale Speech Fashions for Zero-Shot Activity Generalization“ [1]Whisper wurde aufgefordert, Aufgaben der audiovisuellen Spracherkennung (AVSR), der codevermittelten Spracherkennung (CS-ASR) und der Sprachübersetzung (ST) unter Verwendung unsichtbarer Sprachpaare durchzuführen.
In dieser Arbeit nutzen sie den berühmten Imaginative and prescient-and-Language-CLIP [2] Modell als Bildkodierer zusammen mit einem externen Vokabular gängiger Objektwörter.
Bei dieser Aufgabe handelt es sich um eine breitere Variante der audiovisuellen Spracherkennung (AVSR), bei der Sprachaudio erkannt und gleichzeitig das begleitende Video der Gesichts- oder Lippenbewegungen des Sprechers berücksichtigt wird.
Um Whisper mit einer visuell konditionierten Eingabeaufforderung zu versorgen, verwenden sie das berühmte und beliebte Imaginative and prescient-and-Language-CLIP-Modell und ein externes Vokabular aus gebräuchlichen Objektwörtern. Dadurch können sie den visuellen Stream in eine Folge von Wort-Tokens umwandeln. Durch die Erstellung von Sätzen unter Verwendung der Vorlage „Dies ist ein Foto eines {}“ für jedes Wort/jede Phrase im externen Vokabular werden Einbettungsvektoren mithilfe des CLIP-Textkodierers offline vorberechnet.
Während der Inferenz tasten sie drei gleichmäßig beabstandete RGB-Bildframes aus jedem Video ab und verwenden den CLIP-Bildencoder, um sie einzubetten. Sie berechnen die Ähnlichkeit zwischen den Bildeinbettungen und den vorberechneten Texteinbettungen. Basierend auf den höchsten Ähnlichkeitswerten wählen sie die High-Okay-Objekte aus, deren Einbettungen der Bildaufforderung entsprechen. Diese ausgewählten Objektnamen werden zu einer durch Kommas getrennten Wortliste verkettet, die in den vorherigen Textbereich der Eingabeaufforderung eingefügt wird.
Darüber hinaus fanden sie interessante Eigenschaften von Whisper – in AVSR ist das Modell sehr strong gegenüber der Länge und dem Rauschen der visuellen Eingabeaufforderung, und die Wirksamkeit der visuellen Eingabeaufforderung ist zwischen englischen Modellen und mehrsprachigen Modellen sehr unterschiedlich
In „BLIP: Bootstrapping Language-Picture Pre-Coaching for Unified Imaginative and prescient-Language Understanding and Technology“ [3] stellen sie zwei Beiträge vor, die sowohl aus Modell- als auch aus Datenperspektive stammen.
Zunächst wird eine neue Modellarchitektur namens MED (Multimodal Combination of Encoder-Decoder) eingeführt, um ein effizientes Multitasking-Vortraining und anpassungsfähiges Transferlernen zu erreichen. MED bietet die Flexibilität, als unimodaler Encoder, bildbasierter Textual content-Encoder oder bildbasierter Textual content-Decoder zu fungieren. Es umfasst drei Imaginative and prescient-Sprachziele: Bild-Textual content-Kontrast-Lernen (ITC), Bild-Textual content-Matching (ITM) und bildbedingte Sprachmodellierung (LM).
(Hinweis: ITC, ITM und LM wurden kurz eingeführt [LINK])
Zweitens schlagen sie eine neue Datensatz-Boostrapping-Methode zum Lernen aus verrauschten Bild-Textual content-Paaren vor. Der Ansatz beinhaltet die Feinabstimmung eines vorab trainierten MED-Modells in zwei unterschiedliche Module. Das erste Modul, Captioner genannt, generiert synthetische Untertitel basierend auf Webbildern. Das zweite Modul, der sogenannte Filter, ist dafür verantwortlich, verrauschte Untertitel sowohl aus dem ursprünglichen Webtext als auch aus den synthetischen Texten zu entfernen.
Die Ergebnisse zeigen, dass der Untertiteler und der Filter durch die Verwendung von Bootstrapping-Untertiteln zusammenarbeiten, um die Leistung bei verschiedenen nachgelagerten Aufgaben deutlich zu verbessern.
In einer anderen Arbeit, „ClipCap: CLIP-Präfix für Bildunterschriften“ [4]Sie versuchen, dem GPT-2-Modell die Fähigkeit zu verleihen, Bilder zu verstehen, ähnlich wie man das Whisper-Modell dazu auffordert, Bilder zu verstehen und Bildunterschriften bereitzustellen. Im Element verwenden sie CLIP als Bildencoder zum Extrahieren von Bildmerkmalen, die eine einheitliche Darstellung sowohl für Bilder als auch für Textaufforderungen darstellen können. Anschließend werden extrahierte Bildmerkmale in ein trainierbares Kartierungsnetzwerk eingespeist, um Präfixeinbettungen zu generieren. Diese Präfixeinbettungen werden schließlich der Eingabe vorangestellt und in das Sprachmodell eingespeist.
In „Neuronale Codec-Sprachmodelle sind Zero-Shot-Textual content-zu-Sprache-Synthesizer“ [5]Sie nutzen die Sprachdiskretisierung, um die Lücke zwischen Sprach- und Textmodalitäten zu schließen. Sie trainieren ein neuronales Codec-Sprachmodell namens VALL-E unter Verwendung diskreter Codes, die aus einem neuronalen Audio-Codec-Modell erhalten wurden. Darüber hinaus behandeln sie Textual content-to-Speech (TTS) als eine bedingte Sprachmodellierungsaufgabe und weichen damit von früheren Ansätzen ab, die eine kontinuierliche Signalregression verwendeten.
In „SpeechGPT: Stärkung großer Sprachmodelle mit intrinsischen modalübergreifenden Konversationsfähigkeiten“ [6]Sie führen ein großes Sprachmodell mit intrinsischen modalübergreifenden Konversationsfähigkeiten ein, das in der Lage ist, multimodale Inhalte wahrzunehmen und zu generieren. Mithilfe eines selbstüberwachten trainierten Sprachmodells führen sie eine Sprachdiskretisierung durch, um die Modalitätslücke zwischen Sprache und Textual content zu schließen. Die diskreten Sprachtoken werden anschließend in das Vokabular des Sprachmodells erweitert, wodurch das Modell mit der inhärenten Fähigkeit ausgestattet wird, Sprache wahrzunehmen und zu erzeugen.
Diese Arbeit zeigt die Entwicklung eines multimodalen großen Sprachmodells, das in der Lage ist, multimodale Inhalte wahrzunehmen und zu generieren. SpeechGPT, das erste LLM für gesprochene Dialoge, demonstriert seine Kompetenz im Verstehen menschlicher Anweisungen und in der Teilnahme an gesprochenen Dialogen. Darüber hinaus zeigen sie das Potenzial für die Integration zusätzlicher Modalitäten in LLMs mithilfe diskreter Darstellungen.
[1] Peng, P., Yan, B., Watanabe, S. & Harwath, D. (2023). Das verborgene Expertise von Internet-Scale-Sprachmodellen für die Zero-Shot-Aufgabengeneralisierung fördern. arXiv-Vorabdruck arXiv:2305.11095.
[2] Radford, A., Kim, JW, Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021, Juli). Erlernen übertragbarer visueller Modelle durch Supervision in natürlicher Sprache. In Internationale Konferenz zum Thema maschinelles Lernen (S. 8748–8763). PMLR.
[3] Li, J., Li, D., Xiong, C. & Hoi, S. (2022, Juni). Blip: Bootstrapping-Sprach-Bild-Vortraining für ein einheitliches Verständnis und die Generierung von Imaginative and prescient-Sprache. In Internationale Konferenz zum maschinellen Lernen (S. 12888–12900). PMLR.[4] ClipCap: CLIP-Präfix für Bildunterschriften, 2021.
[5] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., … & Wei, F. (2023). Neuronale Codec-Sprachmodelle sind Zero-Shot-Textual content-zu-Sprache-Synthesizer. arXiv-Vorabdruck arXiv:2301.02111.
[6] Zhang, D., Li, S., Zhang, X., Zhan, J., Wang, P., Zhou, Y. & Qiu, X. (2023). Speechgpt: Stärkung großer Sprachmodelle mit intrinsischen modalübergreifenden Konversationsfähigkeiten. arXiv-Vorabdruck arXiv:2305.11000.
[7] Solar, C., Myers, A., Vondrick, C., Murphy, Okay. & Schmid, C. (2019). Videobert: Ein gemeinsames Modell für das Lernen von Video- und Sprachdarstellungen. In Tagungsband der internationalen IEEE/CVF-Konferenz zum Thema Laptop Imaginative and prescient (S. 7464–7473).
[8] Akbari, H., Yuan, L., Qian, R., Chuang, WH, Chang, SF, Cui, Y. & Gong, B. (2021). Vatt: Transformer für multimodales selbstüberwachtes Lernen aus Rohvideo, Audio und Textual content. Fortschritte in neuronalen Informationsverarbeitungssystemen, 3424206–24221.
[9] Wang, Z., Yu, J., Yu, AW, Dai, Z., Tsvetkov, Y. & Cao, Y. (2021). Simvlm: Einfaches Vortraining für ein visuelles Sprachmodell mit schwacher Aufsicht. arXiv-Vorabdruck arXiv:2108.10904.
[10] Yu, J., Wang, Z., Vasudevan, V., Yeung, L., Seyedhossini, M. & Wu, Y. (2022). Coca: Kontrastive Untertitel sind Bild-Textual content-Grundlagenmodelle. arXiv-Vorabdruck arXiv:2205.01917.