Erkundung der wichtigsten Logiken und Hyperparameter des Deep Learning in TensorFlow Teil I | von Rich Tsai | Juni 2023

0
28


Es werden verschiedene Aktivierungsfunktionen ausgewählt, um Nichtlinearität einzuführen und die Eingabewerte auf unterschiedliche Weise zu transformieren. Sie variieren je nach Architektur und Place im Netzwerk in Artwork und Verwendung.

Grundlegende Aktivierungsfunktionen wie

Sigmoid (Logistik):

Die Ausgabe der Sigmoidfunktion liegt immer zwischen 0 und 1.

Tanh:

Die Ausgabe der Tanh-Funktion wird immer zwischen -1 und 1 liegen. Darüber hinaus werden die Verwendung der Xavier-Initialisierung zur Gewichtsinitialisierung und die Skalierung der Eingabedaten auf den Bereich von -1 bis 1 empfohlen, wenn die Tanh-Aktivierungsfunktion in verborgenen Ebenen verwendet wird Um die Trainingsstabilität und Konvergenz des neuronalen Netzwerks zu verbessern, indem verhindert wird, dass die Gradienten weder zu klein noch zu groß sind.

Gleichgerichtete Lineareinheit (ReLU):

Es gibt zwei Vorteile von ReLU, die es zu einer beliebten Wahl als Aktivierungsfunktion machen.

  1. Effiziente Berechnung da die Ableitung von ReLU für eine optimistic Eingabe 1 ist.
  2. Doss nicht Downside der Gradientenausbreitung (verschwindend) da es im Vergleich zu den beiden anderen herkömmlichen Aktivierungsfunktionen keine asymptotische Ober- und Untergrenze gibt.

Allerdings ist ReLu immer noch nicht perfekt, da es das Downside des „sterbenden ReLU“ hat, dass das Neuron im Nullbereich der ReLU-Funktion hängen bleibt. Daher sind Lösungen zur Bewältigung dieses Issues erforderlich:

A. Gewichtsinitialisierung:

Durch die Verwendung der Xavier-Initialisierung werden die ReLU-Aktivierungseinheiten so initialisiert, dass ein Gleichgewicht gefördert wird, bei dem die Varianz der Ausgabe nahe bei 1 liegt.

B. Anpassung der Lernrate:

Probieren Sie eine andere Lernrate aus, um aus der festgefahrenen Area herauszukommen

C. Batch-Normalisierung:

Normalisieren Sie die Eingabe, um zu verhindern, dass sie vom spezifischen Gewicht abhängt, wodurch das Modell allgemeiner wird.

D. Variante von ReLU:

1. Undichte ReLU

Anstatt die negativen Werte vollständig zu verwerfen, besteht ein alternativer Ansatz darin, das Downside zu lösen, indem eine verringerte Model des negativen Teils zurückgegeben wird, die durch einen Leckfaktor erheblich verringert wird alpha(Es ist der Gradient und ein fester Parameter, der experimentell bestimmt werden kann).

2. PReLU (Parametrische ReLU)

Es führt einen lernbaren Parameter ein, um den Gradienten des negativen Teils der Funktion zu steuern. Die Formel ist im Wesentlichen die gleiche wie bei Leaky-ReLU. Der Unterschied besteht darin, dass der Parameter alpha Dies ist im Modell lernbar und nicht von uns entschieden.

Im Vergleichsdiagramm unten können Sie sehen, dass Leaky ReLU mit PReLU identisch ist, da wir das festgelegt haben alpha für eine feste Zahl zur Interpretation, aber in Wirklichkeit sind sie möglicherweise nicht gleich.

3. ELU (Exponentielle Lineareinheit)

Obwohl Leaky ReLU einige der mit ReLU verbundenen Probleme angegangen ist, ist es nicht ohne eigene Einschränkungen. Es gibt noch Probleme, die angegangen werden müssen, wie etwa die Funktionskontinuität und das Sättigungsproblem.

Vorteil:

  1. Kontinuierlich: Im Gegensatz zu anderen Formen von ReLU, die stückweise linear sind, ist ELU eine glatte und kontinuierliche Funktion. Diese Eigenschaft ermöglicht eine schnellere Konvergenz und eine verbesserte Optimierung während des Trainings.
  2. Mittlere Null: ELU-Aktivierungen haben im Vergleich zu anderen Aktivierungsfunktionen einen Mittelwert, der näher bei Null liegt, was vermutlich zu einem schnelleren Lernprozess beiträgt. Dies liegt daran, dass die um Null zentrierten Aktivierungswerte dem Netzwerk dabei helfen, differenziertere und ausgewogenere Darstellungen der Daten zu erfassen.
  3. Damaging Sättigung: ELU geht das Downside der negativen Sättigung effektiver an als Leaky ReLU.

Es gibt auch eine Erweiterung von ELU, nämlich SeLU (Scaled Exponential Linear Unit). Es hat die Eigenschaft, den Mittelwert der Ausgabe auf 0 und die Varianz der Ausgabe auf 1 (mit angegebenem Wert) zu halten alpha , lambda). Es kann dazu beitragen, das Coaching zu stabilisieren und die Konvergenz in tiefen neuronalen Netzen zu verbessern.

4. GELU (Gaußsche Fehlerlineareinheit)

Es gibt auch eine weitere wichtige Aktivierungsfunktion, die in großen Sprachmodellen wie BERT, GPT-2, GPT-3 weit verbreitet ist: GELU (Gaussian Error Linear Unit).

In GELU skaliert die Aktivierungsfunktion die Eingabe, indem sie sie mit der kumulativen Dichtefunktion der Standardnormalverteilung bei diesem Eingabewert multipliziert. Anstatt die Eingaben einfach anhand ihres Vorzeichens zu schwellen, berücksichtigt GELU die tatsächlichen Werte der Eingaben und gewichtet sie entsprechend. Dieser Ansatz ermöglicht eine differenziertere und kontinuierlichere Transformation der Eingaben und trägt zur Nichtlinearität und verbesserten Leistung der Aktivierungsfunktion bei.

Unten ist die Formel von GELU daraus PapierDa die Berechnung kompliziert und langsam ist, wird häufig eine viel schnellere Näherung verwendet.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here