Beim Coaching von Deep-Studying-Modellen mit vielen Ebenen tritt ein Drawback namens auf Problem des verschwindenden Gradienten. Bei bestimmten Aktivierungsfunktionen während der Rückausbreitung kann nur ein verschwindend kleiner Anteil des Gradienten die frühen Schichten erreichen. Das Ergebnis ist, dass frühe Parameter übermäßig langsam angepasst werden.
Es gibt verschiedene Methoden, um dieses Drawback anzugehen, beispielsweise die Verwendung einer ReLU-Aktivierungsfunktion oder die sorgfältige Initialisierung von Gewichten, um einen verschwindenden Gradienten zu vermeiden.
Die Methode zur Lösung dieses Issues, die ich heute diskutieren werde, ist als Residual Connections bekannt. Das erstmals 2015 von He et al. vorgeschlagene Papier Deep Residual Learning für die Bilderkennung schlägt eine Modellstruktur vor, bei der sich der Gradient ungehindert in frühe Schichten ausbreiten kann.
Die wichtigste Erkenntnis besteht darin, dass während der Backpropagation, wenn der Gradient einen Additionsknoten durchläuft, der Gradient im Wesentlichen unverändert zum nächsten Knoten weitergegeben wird. Erinnern Sie sich an die Infinitesimalrechnung:
wenn L = F + x, dann 𝑑𝐿/𝑑𝑥 = F und 𝑑𝐿/𝑑𝐹 = x.
Wenn wir unser Netzwerk auf diese Weise aufbauen, fließt der Gradient, der in den Additionsknoten gelangt, während der Backpropagation durch den darüber liegenden Layer-Block zurück, überspringt den Layer-Block und fließt, um sich wieder mit dem Gradienten zu vereinen, der aus dem Layer-Block herausgeht . Dieses „Überspringen“ von Schichtblöcken ist der Grund, warum diese Struktur auch als „Überspringen“ von Schichtblöcken bezeichnet wird Verbindungen überspringen.
Viele Faltungs-Neuronale Netze haben dieses Framework erfolgreich eingesetzt, beispielsweise ResNet34 und seine Nachkommen.