AlexNet: Die Architektur, die Computer Vision revolutionierte | von Pranay Rishith | Juni 2023

0
26


Einführung

Dies ist das erste Deep Convolutional Neural Community (CNN), das Bildklassifizierungsaufgaben revolutioniert hat. Diese Architektur gewann 2012 die ImageNet Problem (ILSVRC).

AlexNet verfügt über mehrere tiefe Schichten. Es besteht aus 60 Millionen Parametern und ist damit eines der größten neuronalen Netze seiner Zeit. Es wurde ursprünglich für die Bildklassifizierung entwickelt und zur Verarbeitung hochauflösender Bilder verwendet. AlexNet wurde optimiert, um die Vorteile der GPU zu nutzen.

Was macht es gegenüber LeNet intestine?

  • AlexNet ist tiefer als LeNet und enthält 5 Faltungsschichten, während LeNet nur 2 Faltungsschichten hat.
  • AlexNet verwendet eine viel bessere Aktivierungsfunktion – ReLU. Diese Aktivierungsfunktion ist ein Improve der Sigmoid- oder Tanh-Funktion.
  • LeNet ist auf Graustufenbilder beschränkt, während AlexNet Bilder mit Farbe, additionally RGB-Kanälen, verwendet.

Die Architektur

Lass uns eintauchen,

Hinweis: Wenn die Ebene Polsterung oder Schritte verwendet, habe ich dies ausdrücklich erwähnt. Wenn ich es nicht erwähne, ist es die Standardeinstellung.

Eingang:

  • Die Eingabegröße beträgt 227x227x3. Dies bedeutet, dass es 227 Pixel hoch und breit ist und über 3 Kanäle verfügt (RGB).

Schicht 1 (Faltungsschicht 1):

  • Eingabe: 227x227x3
  • Anzahl der Filter: 96
  • Filtergröße: 11×11
  • Schritte: 4
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße (Function-Map-Größe): 55 x 55 x 96

Schicht 2 (Max. Pooling Schicht 1):

  • Eingabegröße: 55x55x96
  • Poolgröße: 3×3
  • Schritt: 2
  • Ausgabegröße: 27x27x96

Schicht 3 (Faltungsschicht 2):

  • Eingabe: 27x27x96
  • Anzahl der Filter: 256
  • Polsterung: 1
  • Filtergröße: 5×5
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße: 27x27x256

Schicht 4 (Max. Pooling Schicht 2):

  • Eingabegröße: 27x27x256
  • Poolgröße: 3×3
  • Schritt: 2
  • Ausgabegröße: 13x13x256

Schicht 5 (Faltungsschicht 3):

  • Eingabe: 13x13x256
  • Anzahl der Filter: 384
  • Filtergröße: 3×3
  • Polsterung: 1
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße (Function-Map-Größe): 13 x 13 x 384

Schicht 6 (Faltungsschicht 4):

  • Eingabe: 13x13x384
  • Anzahl der Filter: 384
  • Filtergröße: 3×3
  • Polsterung: 1
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße (Function-Map-Größe): 13 x 13 x 384

Schicht 7 (Faltungsschicht 5):

  • Eingabe: 13x13x384
  • Anzahl der Filter: 256
  • Filtergröße: 3×3
  • Polsterung: 1
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße (Function-Map-Größe): 13 x 13 x 256

Schicht 8 (Max. Pooling Schicht 3):

  • Eingabegröße: 13x13x256
  • Poolgröße: 3×3
  • Schritt: 2
  • Ausgabegröße: 6x6x256

Ebene 9 (Abflachen):

  • Eingabegröße: 6x6x256
  • Ausgabegröße: 9216

Schicht 10 (vollständig verbundene Schicht 1):

  • Eingabegröße: 9216
  • Knoten: 4096
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße: 4096

Schicht 11 (vollständig verbundene Schicht 2):

  • Eingabegröße: 4096
  • Knoten:4096
  • Aktivierungsfunktion: ReLU
  • Ausgabegröße: 4096

Schicht 12 (vollständig verbundene Schicht 3) [Output Layer]:

  • Eingabegröße: 4096
  • Knoten: 1000
  • Aktivierungsfunktion: Softmax
  • Ausgabegröße: 1000

Code

Fortgeschrittenere Architekturen für einen anderen Artikel. Treffen wir uns beim nächsten Treffen. Wenn Ihnen dieser Inhalt gefällt, wird mir ein paar Klatschen noch ein wenig zusätzliche Motivation geben.

Du kannst mich unter … erreichen:

LinkedIn: https://www.linkedin.com/in/pranay16/

GitHub: https://github.com/pranayrishith16



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here