Einführung
Dies ist das erste Deep Convolutional Neural Community (CNN), das Bildklassifizierungsaufgaben revolutioniert hat. Diese Architektur gewann 2012 die ImageNet Problem (ILSVRC).
AlexNet verfügt über mehrere tiefe Schichten. Es besteht aus 60 Millionen Parametern und ist damit eines der größten neuronalen Netze seiner Zeit. Es wurde ursprünglich für die Bildklassifizierung entwickelt und zur Verarbeitung hochauflösender Bilder verwendet. AlexNet wurde optimiert, um die Vorteile der GPU zu nutzen.
Was macht es gegenüber LeNet intestine?
- AlexNet ist tiefer als LeNet und enthält 5 Faltungsschichten, während LeNet nur 2 Faltungsschichten hat.
- AlexNet verwendet eine viel bessere Aktivierungsfunktion – ReLU. Diese Aktivierungsfunktion ist ein Improve der Sigmoid- oder Tanh-Funktion.
- LeNet ist auf Graustufenbilder beschränkt, während AlexNet Bilder mit Farbe, additionally RGB-Kanälen, verwendet.
Die Architektur
Lass uns eintauchen,
Hinweis: Wenn die Ebene Polsterung oder Schritte verwendet, habe ich dies ausdrücklich erwähnt. Wenn ich es nicht erwähne, ist es die Standardeinstellung.
Eingang:
- Die Eingabegröße beträgt 227x227x3. Dies bedeutet, dass es 227 Pixel hoch und breit ist und über 3 Kanäle verfügt (RGB).
Schicht 1 (Faltungsschicht 1):
- Eingabe: 227x227x3
- Anzahl der Filter: 96
- Filtergröße: 11×11
- Schritte: 4
- Aktivierungsfunktion: ReLU
- Ausgabegröße (Function-Map-Größe): 55 x 55 x 96
Schicht 2 (Max. Pooling Schicht 1):
- Eingabegröße: 55x55x96
- Poolgröße: 3×3
- Schritt: 2
- Ausgabegröße: 27x27x96
Schicht 3 (Faltungsschicht 2):
- Eingabe: 27x27x96
- Anzahl der Filter: 256
- Polsterung: 1
- Filtergröße: 5×5
- Aktivierungsfunktion: ReLU
- Ausgabegröße: 27x27x256
Schicht 4 (Max. Pooling Schicht 2):
- Eingabegröße: 27x27x256
- Poolgröße: 3×3
- Schritt: 2
- Ausgabegröße: 13x13x256
Schicht 5 (Faltungsschicht 3):
- Eingabe: 13x13x256
- Anzahl der Filter: 384
- Filtergröße: 3×3
- Polsterung: 1
- Aktivierungsfunktion: ReLU
- Ausgabegröße (Function-Map-Größe): 13 x 13 x 384
Schicht 6 (Faltungsschicht 4):
- Eingabe: 13x13x384
- Anzahl der Filter: 384
- Filtergröße: 3×3
- Polsterung: 1
- Aktivierungsfunktion: ReLU
- Ausgabegröße (Function-Map-Größe): 13 x 13 x 384
Schicht 7 (Faltungsschicht 5):
- Eingabe: 13x13x384
- Anzahl der Filter: 256
- Filtergröße: 3×3
- Polsterung: 1
- Aktivierungsfunktion: ReLU
- Ausgabegröße (Function-Map-Größe): 13 x 13 x 256
Schicht 8 (Max. Pooling Schicht 3):
- Eingabegröße: 13x13x256
- Poolgröße: 3×3
- Schritt: 2
- Ausgabegröße: 6x6x256
Ebene 9 (Abflachen):
- Eingabegröße: 6x6x256
- Ausgabegröße: 9216
Schicht 10 (vollständig verbundene Schicht 1):
- Eingabegröße: 9216
- Knoten: 4096
- Aktivierungsfunktion: ReLU
- Ausgabegröße: 4096
Schicht 11 (vollständig verbundene Schicht 2):
- Eingabegröße: 4096
- Knoten:4096
- Aktivierungsfunktion: ReLU
- Ausgabegröße: 4096
Schicht 12 (vollständig verbundene Schicht 3) [Output Layer]:
- Eingabegröße: 4096
- Knoten: 1000
- Aktivierungsfunktion: Softmax
- Ausgabegröße: 1000
Code
Fortgeschrittenere Architekturen für einen anderen Artikel. Treffen wir uns beim nächsten Treffen. Wenn Ihnen dieser Inhalt gefällt, wird mir ein paar Klatschen noch ein wenig zusätzliche Motivation geben.
Du kannst mich unter … erreichen:
LinkedIn: https://www.linkedin.com/in/pranay16/