Arbeiten mit verschiedenen Darstellungsstrukturen im maschinellen Lernen Teil10 | von Monodeep Mukherjee | Juli 2023

0
23


  1. Generieren, um für die Darstellung zu verstehen (arXiv)

Autor: Changshang Xue, Xiande Zhong, Xiaoqing Liu

Zusammenfassung: In den letzten Jahren ist eine beträchtliche Anzahl hochwertiger vorab trainierter Modelle entstanden, die große Auswirkungen auf Aufgaben des Pure Language Understanding (NLU), der Pure Language Era (NLG) und der Textdarstellung haben. Traditionell werden diese Modelle auf benutzerdefinierten Domänenkorpora vorab trainiert und auf bestimmte Aufgaben abgestimmt, was zu hohen Kosten im Zusammenhang mit der GPU-Nutzung und dem Arbeitsaufwand führt. Bedauerlicherweise haben sich die jüngsten Tendencies bei der Sprachmodellierung in Richtung einer Leistungssteigerung durch Skalierung verlagert, was die damit verbundenen Kosten weiter in die Höhe treibt. Wir stellen vor: GUR: ein Pretraining-Framework, das Sprachmodellierung und kontrastive Lernziele in einem einzigen Trainingsschritt kombiniert. Wir wählen ähnliche Textpaare basierend auf ihrem Longest Frequent Substring (LCS) aus unbeschrifteten Rohdokumenten aus und trainieren das Modell mithilfe maskierter Sprachmodellierung und unbeaufsichtigtem kontrastivem Lernen. Das resultierende Modell, GUR, erzielt beeindruckende Ergebnisse ohne gekennzeichnete Trainingsdaten und übertrifft alle anderen vorab trainierten Basislinien als Retriever beim Recall-Benchmark in einer Zero-Shot-Einstellung. Darüber hinaus behält GUR seine Fähigkeit zur Sprachmodellierung bei, wie in unserem Ablationsexperiment gezeigt. Unser Code ist verfügbar unter url{https://github.com/laohur/GUR}

2.Systematisches architektonisches Design von skalentransformierten Aufmerksamkeitskondensator-DNNs mittels Multi-Scale Class Representational Response Similarity Evaluation (arXiv)

Autor: Andre Hryniowski, Alexander Wong

Zusammenfassung: Mechanismen der Selbstaufmerksamkeit sind üblicherweise in Faltungs-Neuronalen Netzen enthalten, um eine verbesserte Effizienz-Leistungs-Stability zu erreichen. Durch das Hinzufügen von Selbstaufmerksamkeitsmechanismen werden jedoch zusätzliche Hyperparameter hinzugefügt, um sie an die jeweilige Anwendung anzupassen. In dieser Arbeit schlagen wir eine neuartige Artwork der DNN-Analyse namens Multi-Scale Class Representational Response Similarity Evaluation (ClassRepSim) vor, die zur Identifizierung spezifischer Designinterventionen verwendet werden kann, die zu effizienteren Faltungs-Neuronalen Netzwerkarchitekturen mit Selbstaufmerksamkeit führen. Unter Verwendung von Erkenntnissen aus ClassRepSim schlagen wir das Modul „Spatial Reworked Consideration Condenser“ (STAC) vor, ein neuartiges, auf Aufmerksamkeitskondensatoren basierendes Selbstaufmerksamkeitsmodul. Wir zeigen, dass das Hinzufügen von STAC-Modulen zu Architekturen im ResNet-Stil zu einer Steigerung der High-1-Genauigkeit um bis zu 1,6 % im Vergleich zu Vanilla-ResNet-Modellen und einer Steigerung der High-1-Genauigkeit um bis zu 0,5 % im Vergleich zu SENet-Modellen im ImageNet64x64-Datensatz führen kann. auf Kosten einer bis zu 1,7 % höheren Anzahl an FLOPs und einer verdoppelten Anzahl an Parametern. Darüber hinaus zeigen wir, dass Ergebnisse der ClassRepSim-Analyse zur Auswahl einer effektiven Parametrisierung des STAC-Moduls verwendet werden können, was zu einer wettbewerbsfähigen Leistung im Vergleich zu einer umfangreichen Parametersuche führt.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here