Verhalten des Kreuzentropieverlusts in Modellen des maschinellen Lernens Teil1 | von Monodeep Mukherjee | Mai 2023

0
35


  1. Kreuzentropieverlustfunktionen: Theoretische Analyse und Anwendungen (arXiv)

Autor: Anqi Mao, Mehryar Mohri, Yutao Zhong

Zusammenfassung: Kreuzentropie ist eine in Anwendungen weit verbreitete Verlustfunktion. Dies stimmt mit dem logistischen Verlust überein, der auf die Ausgänge eines neuronalen Netzwerks angewendet wird, wenn Softmax verwendet wird. Aber auf welche Garantien können wir uns verlassen, wenn wir Kreuzentropie als Ersatzverlust verwenden? Wir präsentieren eine theoretische Analyse einer breiten Familie von Verlusten, Comp-Sum-Verlusten, die Kreuzentropie (oder logistische Verluste), verallgemeinerte Kreuzentropie, den mittleren absoluten Fehler und andere Verlust-Kreuzentropie-ähnliche Funktionen umfasst. Wir geben die ersten H-Konsistenzgrenzen für diese Verlustfunktionen an. Hierbei handelt es sich um nicht-asymptotische Garantien, die den Null-Eins-Verlustschätzfehler in Bezug auf den Schätzfehler eines Ersatzverlusts für den verwendeten spezifischen Hypothesensatz H nach oben begrenzen. Wir zeigen außerdem, dass unsere Grenzen eng sind. Diese Grenzen hängen von Größen ab, die als Minimierbarkeitslücken bezeichnet werden und nur von der Verlustfunktion und dem Hypothesensatz abhängen. Um sie deutlicher zu machen, geben wir eine spezifische Analyse dieser Lücken für Comp-Sum-Verluste. Wir führen außerdem eine neue Familie von Verlustfunktionen ein, glatte kontradiktorische Comp-Summen-Verluste, die von ihren Comp-Summen-Gegenstücken abgeleitet werden, indem ein verwandter glatter Time period hinzugefügt wird. Wir zeigen, dass diese Verlustfunktionen im kontradiktorischen Umfeld von Vorteil sind, indem wir beweisen, dass sie H-Konsistenzgrenzen zulassen. Dies führt zu neuen gegnerischen Robustheitsalgorithmen, die darin bestehen, einen regulierten, glatten gegnerischen Comp-Summenverlust zu minimieren. Während unser Hauptzweck eine theoretische Analyse ist, präsentieren wir auch eine umfassende empirische Analyse, in der Kompenssummenverluste verglichen werden. Wir berichten außerdem über die Ergebnisse einer Reihe von Experimenten, die zeigen, dass unsere Algorithmen für die gegnerische Robustheit den aktuellen Stand der Technik übertreffen und gleichzeitig eine überlegene nichtgegnerische Genauigkeit erreichen.

2. Effektives und effizientes Coaching für sequentielle Empfehlungen unter Verwendung des kumulativen Kreuzentropieverlusts (arXiv)

Autor: Fangyu Li, Shenbao Yu, Feng Zeng, Fang Yang

Zusammenfassung: Zunehmendes Forschungsinteresse konzentriert sich auf sequentielle Empfehlungssysteme mit dem Ziel, die dynamische Sequenzdarstellung präzise zu modellieren. Allerdings weist die in modernen sequentiellen Empfehlungsmodellen am häufigsten verwendete Verlustfunktion wesentliche Einschränkungen auf. Um nur einige zu nennen: Der Verlust des Bayesian Customized Rating (BPR) leidet unter dem Downside des verschwindenden Gradienten aufgrund zahlreicher negativer Stichproben- und Vorhersageverzerrungen; Der Verlust der binären Kreuzentropie (BCE) unterliegt negativen Stichprobenzahlen, wodurch wertvolle destructive Beispiele wahrscheinlich ignoriert werden und die Trainingseffizienz verringert wird. Der Cross-Entropy (CE)-Verlust konzentriert sich nur auf den letzten Zeitstempel der Trainingssequenz, was zu einer geringen Nutzung von Sequenzinformationen und einer schlechteren Darstellung der Benutzersequenz führt. Um diese Einschränkungen zu vermeiden, schlagen wir in diesem Artikel vor, den kumulativen Kreuzentropieverlust (CCE) über die Sequenz zu berechnen. CCE ist einfach und direkt und zeichnet sich durch einen schmerzlosen Einsatz, keine negativen Stichproben sowie ein effektives und effizientes Coaching aus. Wir führen umfangreiche Experimente mit fünf Benchmark-Datensätzen durch, um die Wirksamkeit und Effizienz von CCE zu demonstrieren. Die Ergebnisse zeigen, dass der Einsatz des CCE-Verlusts auf drei hochmodernen Modellen GRU4Rec, SASRec und S3-Rec eine durchschnittliche Verbesserung von 125,63 %, 69,90 % bzw. 33,24 % des vollständigen Rankings NDCG@5 erreichen kann. Bei Verwendung von CCE steigt die Leistungskurve der Modelle anhand der Testdaten schnell mit der Zeit an und ist der anderer Verlustfunktionen in quick dem gesamten Prozess des Modelltrainings überlegen.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here