- Verwendung von Hilfsaufgaben bei der multimodalen Fusion von Wav2vec 2.0 und BERT zur multimodalen Emotionserkennung (arXiv)
Autor: Dekai Sun, Yancheng He, Jiqing Han
Zusammenfassung: Der Mangel an Daten und die Schwierigkeit der multimodalen Fusion waren schon immer Herausforderungen für die multimodale Emotionserkennung (MER). In diesem Artikel schlagen wir vor, vorab trainierte Modelle als Upstream-Netzwerk, wav2vec 2.0 für die Audiomodalität und BERT für die Textmodalität, zu verwenden und sie in der Downstream-Aufgabe von MER zu verfeinern, um den Datenmangel zu bewältigen. Für die Schwierigkeit der multimodalen Fusion verwenden wir einen Okay-Layer-Mehrkopf-Aufmerksamkeitsmechanismus als Downstream-Fusionsmodul. Ausgehend von der MER-Aufgabe selbst entwerfen wir zwei Hilfsaufgaben, um die unzureichende Fusion zwischen Modalitäten zu mildern und das Netzwerk bei der Erfassung und Ausrichtung emotionsbezogener Merkmale anzuleiten. Im Vergleich zu den vorherigen Modellen auf dem neuesten Stand der Technik erreichen wir eine bessere Leistung von 78,42 % gewichteter Genauigkeit (WA) und 79,71 % ungewichteter Genauigkeit (UA) beim IEMOCAP-Datensatz.
2. Verbesserung der Deep Data Tracing mit Hilfsaufgaben (arXiv)
Autor: Zitao Liu, Qiongqiong Liu, Jiahao Chen, Shuyan Huang, Boyu Gao, Weiqi Luo, Jian Weng
Zusammenfassung: Data Tracing (KT) ist das Drawback der Vorhersage der zukünftigen Leistung von Schülern auf der Grundlage ihrer historischen Interaktionen mit intelligenten Nachhilfesystemen. In jüngsten Studien wurden mehrere Arten tiefer neuronaler Netze eingesetzt, um das KT-Drawback zu lösen. Allerdings gibt es in realen Bildungsdaten zwei wichtige Faktoren, die nicht intestine dargestellt werden. Erstens ergänzen die meisten existierenden Werke Eingabedarstellungen mit der Koexistenzmatrix von Fragen und Wissenskomponentenfootnote{label{ft:kc}Ein KC ist eine Verallgemeinerung alltäglicher Begriffe wie Konzept, Prinzip, Tatsache oder Fähigkeit.} (KCs ), integrieren solche intrinsischen Beziehungen jedoch nicht explizit in die endgültige Antwortvorhersageaufgabe. Zweitens wurde die individuelle historische Leistung der Schüler nicht intestine erfasst. In diesem Artikel haben wir emph{AT-DKT} vorgeschlagen, um die Vorhersageleistung des ursprünglichen Deep Data Tracing-Modells mit zwei Hilfslernaufgaben zu verbessern, nämlich emph{Query Tagging (QT) Prediction Activity} und emph{Individualized Prior Wissen (IK)-Vorhersageaufgabe}. Insbesondere hilft die QT-Aufgabe beim Erlernen besserer Fragedarstellungen, indem sie vorhersagt, ob Fragen bestimmte KCs enthalten. Die IK-Aufgabe erfasst die globale historische Leistung der Schüler, indem sie schrittweise Vorkenntnisse auf Schülerebene vorhersagt, die in den historischen Lerninteraktionen der Schüler verborgen sind. Wir führen umfassende Experimente mit drei realen Bildungsdatensätzen durch und vergleichen den vorgeschlagenen Ansatz sowohl mit tiefen sequentiellen KT-Modellen als auch mit nicht sequentiellen Modellen. Experimentelle Ergebnisse zeigen, dass emph{AT-DKT} alle sequentiellen Modelle mit mehr als 0,9 % Verbesserungen der AUC für alle Datensätze übertrifft und im Vergleich zu nicht-sequentiellen Modellen quick das zweitbeste ist. Darüber hinaus führen wir sowohl Ablationsstudien als auch quantitative Analysen durch, um die Wirksamkeit von Hilfsaufgaben und die überlegenen Vorhersageergebnisse von emph{AT-DKT} zu zeigen.