Art der Aktivierungsfunktionen in neuronalen Netzen

0
25


Aktivierungsfunktionen für neuronale Netze sind ein wesentlicher Bestandteil des Deep Studying, da sie über die Genauigkeit und Effizienz des Trainingsmodells, das zum Erstellen oder Teilen eines großen neuronalen Netzes verwendet wird, und über die Ausgabe von Deep Studying-Modellen entscheiden. Die Aktivierungsfunktion ist ein wertvolles Werkzeug für neuronale Netze, da sie es ihnen ermöglicht, sich auf relevante Daten zu konzentrieren und den Relaxation zu verwerfen. Wie bei jeder anderen Funktion nimmt die Aktivierungsfunktion (die Übertragungsfunktion) eine Eingabe entgegen und gibt eine Ausgabe proportional zu dieser Eingabe zurück. Die Aktivierungsfunktion eines Knotens in einem neuronalen Netzwerk spezifiziert die Ausgabe des Knotens als Reaktion auf eine bestimmte Eingabe oder Gruppe von Eingaben.

Sie entscheiden effektiv, welche Neuronen aktiviert oder deaktiviert werden, um das gewünschte Ergebnis zu erzielen. Die Eingabe wird außerdem nichtlinear transformiert, um die Leistung in einem hochentwickelten neuronalen Netzwerk zu verbessern. Die Ausgabe aller Informationen im Bereich 1 bis -1 kann mit der Aktivierungsfunktion normalisiert werden. Da neuronale Netze häufig auf Millionen von Datenpunkten trainiert werden, ist es wichtig, dass die Aktivierungsfunktion schnell ist und den Zeitaufwand für die Berechnung der Ergebnisse minimiert.

Schauen wir uns jetzt die Struktur neuronaler Netze an und schauen wir uns an, wie die Architektur neuronaler Netze aufgebaut ist und welche Elemente in neuronalen Netzen vorhanden sind.

Ein künstliches neuronales Netzwerk enthält eine Vielzahl miteinander verbundener einzelner Neuronen. Die Aktivierungsfunktion, Bias und Gewichtung werden jeweils angegeben.

  • Eingabeschicht – Die Rohdaten der Domäne werden an die Eingabeschicht gesendet. Diese Ebene ist die unterste Ebene, auf der Berechnungen stattfinden. Das Einzige, was diese Knoten tun, ist die Weiterleitung von Daten an die nächste geheime Schicht.
  • Verborgener Layer – Beim Empfang von Options vom Eingabe-Layer führt der verborgene Layer verschiedene Berechnungen durch, bevor er das Ergebnis an den Ausgabe-Layer weitergibt. Layer-2-Knoten sind nicht sichtbar und bieten eine Abstraktionsebene für das zugrunde liegende neuronale Netzwerk.
  • Ausgabeschicht – Die Ausgabe der verborgenen Schicht des Netzwerks wird auf dieser Ebene zusammengeführt, was den ultimativen Wert des Netzwerks darstellt.

Bedeutung von Aktivierungsfunktionen

Da eine lineare Gleichung ein Polynom nur eines Grades ist, ist ein neuronales Netzwerk ohne Aktivierungsfunktion lediglich ein lineares Regressionsmodell. Es ist leicht zu lösen, aber in seiner Fähigkeit, komplizierte Probleme oder Polynome höheren Grades zu lösen, eingeschränkt.

In einem neuronalen Netzwerk wird eine Aktivierungsfunktion verwendet, um Nichtlinearität bereitzustellen. Obwohl die Berechnung der Aktivierungsfunktion bei der Vorwärtsausbreitung auf jeder Ebene einen zusätzlichen Schritt hinzufügt, lohnt sich der Aufwand durchaus.

Andernfalls führt jedes Neuron eine lineare Transformation der Eingaben unter Verwendung der Gewichte und Verzerrungen durch. Die Zusammensetzung zweier linearer Funktionen ist selbst eine lineare Funktion; Daher hat die Gesamtzahl der verborgenen Schichten im neuronalen Netzwerk keinen Einfluss auf sein Verhalten.

Arten der Aktivierungsfunktion

Das neuronale Netzwerk wird hauptsächlich in drei Teile eingeteilt, in denen unterschiedliche Aktivierungsfunktionen verwendet werden.

  1. Binäre Schrittfunktion
  2. Lineare Funktion
  3. Nichtlineare Aktivierungsfunktion

Binärschritt-Aktivierungsfunktion für neuronale Netze

  1. Binäre Schrittfunktion

Diese Aktivierungsfunktion ist recht einfach und dient in erster Linie als schwellenwertbasierter Klassifikator, bei dem wir einen Schwellenwert festlegen, um zu bestimmen, ob die Ausgabe eines bestimmten Neurons aktiviert ist. Wenn der Wert der Eingabe in die Aktivierungsfunktion höher ist als ein bestimmter Schwellenwert, wird das Neuron aktiviert und seine Ausgabe wird an die nächste verborgene Schicht weitergeleitet; andernfalls wird das Neuron deaktiviert.

Einschränkungen:

  • Es eignet sich nicht für Probleme, die mehrere Werte erfordern, wie z. B. die Klassifizierung mehrerer Klassen, da es nur einwertige Ergebnisse liefert.
  • Da die Schrittfunktion keinen Gradienten hat, stößt die Rückausbreitung auf Schwierigkeiten.

Lineare neuronale Netzwerk-Aktionsfunktion

  1. Lineare Funktion

Eine Aktivierungsfunktion, bei der die Ausgabe gleich der Eingabe ist, wird als lineare Aktivierungsfunktion bezeichnet. Diese Funktion wird auch „keine Aktivierung“ oder „Identitätsfunktion“ (x1.0) genannt. Die Funktion nimmt die gewichtete Summe der Eingaben und gibt den Wert aus, ohne ihn zu ändern. Mit anderen Worten, unsere Funktion ist proportional zur Gesamtzahl der Neuronen oder des Inputs. Daher haben wir eine geradlinige Aktivierungsfunktion. Die Generierung eines breiten Spektrums an Aktivierungen ist mithilfe linearer Aktivierungsfunktionen effizienter. Eine Linie mit einer positiven Steigung kann die Feuerrate als Reaktion auf eine Erhöhung der Eingangsrate erhöhen.

Einschränkungen:

  • Backpropagation kann nicht verwendet werden, da die Ableitung der Funktion eine Konstante ist, die keinen Einfluss auf die Eingabe x hat.
  • Die letzte Schicht des neuronalen Netzwerks ist immer eine lineare Funktion der ersten Schicht. Eine lineare Aktivierungsfunktion eliminiert alle ihre Schichten, um das neuronale Netzwerk auf seine einfachste Type zu reduzieren. Wenn eine lineare Aktivierungsfunktion auf ein neuronales Netzwerk angewendet wird, verschmelzen alle Schichten effektiv zu einer einzigen Superschicht.

Aktivierungsfunktion für nichtlineare neuronale Netze

  1. Sigmoid-Aktivierungsfunktion

Diese Funktion akzeptiert reelle Zahlen als Eingabe und gibt ganze Zahlen zwischen 0 und 1 zurück. Der Ausgabewert liegt umso näher bei 1,0, je größer (positiver) die Eingabe ist, und liegt näher bei 0,0, je kleiner (negativer) die Eingabe ist. Daher findet es seine häufigste Anwendung in Modellen, deren Ausgabe eine Wahrscheinlichkeitsvorhersage erfordert. Eine Sigmoidverteilung ist geeignet, da alle Wahrscheinlichkeiten zwischen 0 und 1 liegen. Sie wird auch Logistikfunktion genannt.

Einschränkungen:

  • Logistische Funktionen liefern keine symmetrischen Ergebnisse nahe Null. Dadurch wird sichergestellt, dass alle Neuronenausgänge das gleiche Vorzeichen haben. Dies erschwert das inhärent instabile Coaching des neuronalen Netzwerks.

2. ReLU-Aktivierungsfunktion (Rectified Linear Unit).

Heutzutage ist ReLU die beliebteste Aktivierungsfunktion. Da dies eine entscheidende Komponente jedes Deep-Studying- oder Faltungs-Neuronalen Netzwerksystems ist. Während der Bereich von 0 bis Unendlich der Funktion einige Herausforderungen mit sich bringt, führt die Tatsache, dass adverse Werte mit einer so hohen Price in Null umgewandelt werden, dazu, dass sie weder richtig abgebildet wird noch in die Daten passt. Der entscheidende Haken ist, dass die ReLU-Funktion nicht alle Neuronen gleichzeitig aktiviert. Die Neuronen werden ausgeschaltet, wenn die lineare Transformation einen Wert kleiner als 0 ergibt. Da ReLU linear und nicht sättigend ist, beschleunigt es die Annäherung des Gradientenabstiegs an das globale Minimal der Verlustfunktion.

Einschränkungen:

  • Aufgrund der Möglichkeit, dass die Gewichte bei einer hohen Lernrate negativ werden, könnte der Ausgabeterm auch schädlich sein. Eine mögliche Lösung hierfür ist die Reduzierung der Lernrate.
  • Die Fähigkeit des Modells, die Daten angemessen anzupassen oder daraus zu lernen, wird beeinträchtigt, da alle negativen Eingabewerte sofort auf Null gesetzt werden.

3. Tanh-Funktion

Die Tanh-Funktion wird auch als hyperbolische Funktion bezeichnet. Das Tanh ist eine verbesserte Model des logistischen Sigmoids. Die Tanh-Funktion hat den Bereich von (-1 bis 1). Tanh ist ebenfalls sigmoidal (S-förmig). Die negativen Eingaben werden stark negativ abgebildet, wohingegen die Null-Eingaben nahe Null abgebildet werden, was beim Zeichnen eines Tanh-Diagramms von Vorteil ist. Wir können die Funktion differenzieren. Während die Funktion selbst monoton ist, ist dies bei ihrer Ableitung nicht der Fall.

Einschränkungen:

  • Ähnlich wie bei der Sigmoid-Aktivierungsfunktion besteht das Drawback verschwindender Gradienten. Und der Gradient der Tanh-Funktion ist viel steiler als der des Sigmoids.

4. Undichte ReLU-Funktion

Aufgrund seiner leichten positiven Steigung im negativen Bereich ist Leaky ReLU eine erweiterte Variante der ReLU-Funktion, mit der das Dying ReLU-Drawback umgangen werden kann. Folglich werden die Knoten nicht ausgeschaltet und das ReLU-Drawback sterbender Knoten wird vermieden, da adverse Werte nicht in 0 umgewandelt werden.

Einschränkungen:

  • Das Erlernen von Modellparametern kann mühsam sein, wenn der Gradient für adverse Werte minimal ist.

5. Parametrische ReLU-Funktion

Die P-ReLU oder Parametric Da adverse Werte nicht 0 erreichen, die Knoten nicht ausgeschaltet werden und das sterbende ReLU-Drawback nicht auftritt, ist ReLU eine Variante der Leaky-ReLU-Variablen, die versucht, die adverse Hälfte von ReLU durch a zu ersetzen Linie eines Abhangs.

Einschränkungen:

  • Abhängig vom Wert des Steigungsparameters kann es zu unterschiedlichen Ergebnissen für verschiedene Probleme kommen.

6. Exponentielle lineare Einheitenfunktion

Die ELU-Aktivierungsfunktion ist eine weitere Choice und bekannt für ihre schnelle Konvergenz und qualitativ hochwertige Ausgabe. Der Minuspol wird durch eine modifizierte Exponentialfunktion ersetzt. Leider steigt der Rechenaufwand, aber zumindest ist das ReLU-Drawback nicht mehr terminal. Es verringert die Wahrscheinlichkeit des „toten“ ReLU-Issues, indem es eine „logarithmische“ Kurve für adverse Eingabewerte bereitstellt. Es hilft dem Netzwerk dabei, seine Tendenzen und Gewichtungen angemessen anzupassen.

Einschränkungen:

  • Die Einbeziehung einer exponentiellen Operation führt zu einem Anstieg der Verarbeitungszeit.
  • Der Wert von „a“ wird in keiner Weise erfasst, und das Drawback der Gradientenexplosion ist eine der Hauptbeschränkungen.

7. Skalierte exponentielle lineare Einheitenfunktion

Die interne Normalisierung erfolgt durch SELU, das für selbstnormalisierende Netzwerke entwickelt wurde und sicherstellt, dass der Mittelwert und die Varianz jeder Schicht erhalten bleiben. Durch Modifizieren des Mittelwerts und der Varianz ermöglicht SELU diese Normalisierung. Da die ReLU-Aktivierungsfunktion keine negativen Werte erzeugen kann, kann SELU den Mittelwert auf bisher unmögliche Weise verschieben. Die Varianz kann durch die Verwendung von Gradienten verändert werden.

Zur Verstärkung benötigt die SELU-Aktivierungsfunktion einen Bereich mit einem Gradienten größer als eins. Die Netzwerkkonvergenz erfolgt schneller, wenn die interne Normalisierung häufiger verwendet wird als die externe Normalisierung.

8. Gaußsche Fehlerlineareinheitsfunktion

Viele der beliebtesten NLP-Modelle, darunter BERT, ROBERTa und ALBERT, sind mit der GELU-Aktivierungsfunktion kompatibel. Dropout-, Zoneout- und ReLUs-Qualitäten werden kombiniert, um diese Aktivierungsfunktion zu inspirieren. Bei allen Aufgaben in den Bereichen Pc Imaginative and prescient, NLP und Spracherkennung verbessert die GELU-Nichtlinearität die Leistung stärker als ReLU- und ELU-Aktivierungen.

9. Softmax-Aktivierungsfunktion

So wie die Sigmoid-Aktivierung jeder Eingabevariablen einen Wert basierend auf ihrem Gewicht zuweist, weist Softmax jeder Eingabevariablen einen Wert basierend auf der Summe dieser Gewichte zu, die letztendlich eins ist. Aus diesem Grund wird Softmax typischerweise auf der Ausgabeebene verwendet, der letzten Ebene, die für die Entscheidungsfindung verwendet wird.

Abschluss

Um immer kompliziertere Aufgaben besser verstehen und ausführen zu können, wird die Eingabe häufig einer nichtlinearen Transformation unterzogen. Aktivierungsfunktionen wie diese spielen dabei eine entscheidende Rolle. Die verborgenen Schichten eines neuronalen Netzwerks haben normalerweise dieselbe Aktivierungsfunktion. Da die Parameter des Netzwerks durch Backpropagation gelernt werden können, muss diese Aktivierungsfunktion differenzierbar sein. Wir haben die häufigsten Aktivierungsfunktionen, ihre Einschränkungen (falls vorhanden) und ihre Verwendung behandelt.

Trotz der weit verbreiteten Vertrautheit mit der „Aktivierungsfunktion“ denken nur wenige gerne über ihre Auswirkungen nach. Warum sie genutzt werden, welchen Beitrag sie leisten, was gesagt werden muss usw. Obwohl die Probleme einfach erscheinen mögen, kann die zugrunde liegende Dynamik ziemlich kompliziert sein.

Verweise:

  • https://www.analyticssteps.com/blogs/7-types-activation-functions-neural-network
  • https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6
  • https://thehackweekly.com/8-most-popular-types-of-activation-functions-in-neural-networks/
  • https://www.v7labs.com/weblog/neural-networks-activation-functions

Dhanshree Shenwai ist Informatikingenieur und verfügt über gute Erfahrung in FinTech-Unternehmen in den Bereichen Finanzen, Karten & Zahlungen und Bankwesen mit großem Interesse an Anwendungen von KI. Sie ist begeistert davon, neue Technologien und Fortschritte in der sich entwickelnden Welt von heute zu erforschen, um das Leben aller einfacher zu machen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here