Das Drawback des explodierenden Gradienten ist ein weiteres Drawback im Zusammenhang mit dem Coaching tiefer neuronaler Netze, ähnlich wie die Kehrseite des Issues des verschwindenden Gradienten. Dieses Drawback tritt auf, wenn der Gradient zu groß wird, was zu einem instabilen und ineffizienten Lernprozess führen kann.
Im Element werden bei der Backpropagation Gradienten durch das Netzwerk zurückgeleitet. Mit jeder Ebene werden diese Verläufe mit den Gewichten der aktuellen Ebene multipliziert. Wenn diese Gewichte große Werte haben oder die Gradienten selbst groß sind, kann das Ergebnis dieser Multiplikation ein sehr großer Gradient sein. Wenn das Netzwerk tief ist, additionally über viele Schichten verfügt, können diese großen Gradienten während des Trainings zu sehr großen Aktualisierungen der Modellgewichte des neuronalen Netzwerks führen.
Dies führt letztendlich zu einem instabilen Netzwerk, da die Gewichte zu groß werden und zu NaN-Werten führen können. Darüber hinaus kann die Leistung des Netzwerks, anstatt eine gute, stabile Lösung zu erreichen, sehr volatil werden und in der Verlustlandschaft schwanken.
Es gibt mehrere Methoden, um das Drawback des explodierenden Gradienten zu mildern. Dazu gehören Gradientenbeschneidung (die im Wesentlichen die Größe des Gradienten begrenzt), bessere Gewichtungsinitialisierungsstrategien, eine Änderung der Architektur des Netzwerks und die Verwendung verschiedener Optimierungsstrategien.
Genau wie das Drawback des verschwindenden Gradienten tritt das Drawback des explodierenden Gradienten tendenziell häufiger bei bestimmten Arten von Aktivierungsfunktionen auf – typischerweise bei solchen, die ihre Eingabe nicht in einen kleinen Bereich quetschen. Und ähnlich wie das Drawback des verschwindenden Gradienten macht es das Drawback des explodierenden Gradienten zu einer Herausforderung, tiefe neuronale Netze effektiv zu trainieren, da es zu großen, ineffizienten Schritten während des Lernprozesses führt.