Es hat sich gezeigt, dass Klassifikatoren für tiefe neuronale Netze falsch kalibriert sind [1], dh ihre Vorhersagewahrscheinlichkeiten sind keine zuverlässigen Vertrauensschätzungen. Wenn beispielsweise ein neuronales Netzwerk ein Bild mit Wahrscheinlichkeit als „Hund“ klassifiziert P, P kann nicht als Konfidenz der vorhergesagten Klasse des Netzwerks für das Bild interpretiert werden. Darüber hinaus sind Klassifikatoren neuronaler Netze bei ihren Vorhersagen häufig zu zuversichtlich [1]. Ein kalibrierter neuronaler Netzwerkklassifizierer gibt Klassenwahrscheinlichkeiten aus, die mit der wahren Korrektheitswahrscheinlichkeit der Klasse im Floor-Fact-Datensatz übereinstimmen [1]. Wenn additionally ein kalibrierter Klassifikator 100 Eingabebilder mit einer Wahrscheinlichkeit von 0,4 als „Hund“ kennzeichnet, sollte die Anzahl der Bilder, die genau als Hund klassifiziert werden, etwa 40 (40 % von 100) betragen. [2]. Die Kalibrierung neuronaler Netze ist besonders wichtig bei sicherheitskritischen Anwendungen, bei denen zuverlässige Vertrauensschätzungen für fundierte Entscheidungen von entscheidender Bedeutung sind. Einige dieser Anwendungen umfassen medizinische Diagnosen im Gesundheitswesen und selbstfahrende Autos.
Zuverlässigkeitsdiagramme
Zuverlässigkeitsdiagramme zeigen die Lücke zwischen Genauigkeit und Kalibrierung, die zu einer Fehlkalibrierung führt. Die folgende Abbildung zeigt beispielsweise das Zuverlässigkeitsdiagramm für ein Resnet-110-Modell, das auf dem CIFAR-100-Datensatz trainiert wurde [1].
Guo et al. [1] Erklären Sie, dass das Zuverlässigkeitsdiagramm wie folgt dargestellt wird.
Für jede Probe ichwir verwenden die folgende Notation –
Die Modellvorhersagen für alle Stichproben werden basierend auf ihrer Vorhersagewahrscheinlichkeit in M-Bins gruppiert. Jedes Bin Bₘ ist ein Satz von Stichprobenindizes, deren Vorhersagewahrscheinlichkeit im folgenden Intervall liegt
Die Genauigkeit eines Behälters Bₘ ist gegeben durch –
Die Konfidenz eines Behälters Bₘ ist gegeben durch –
Daher stellt das Zuverlässigkeitsdiagramm die Genauigkeit von M-Bins im Vergleich zu ihrer Konfidenz dar. Eine perfekte Kalibrierung wird durch acc(Bₘ) = conf(Bₘ) für alle angezeigt M Bins, dh die blauen Balken richten sich perfekt an der diagonalen Linie aus. Die roten Balken weisen auf eine Fehlkalibrierung hin
- Wenn der blaue Balken unterhalb der diagonalen Linie liegt, ist die Genauigkeit des Bins gleich untere als das Vertrauen der Tonne. Dies zeigt an, dass das Modell für Proben in diesem Abschnitt zu sicher ist, und der rote Balken zeigt den Grad des übermäßigen Vertrauens für diesen Abschnitt.
- Liegt der blaue Balken hingegen über der diagonalen Linie, ist die Genauigkeit des Bins gleich höher als das Vertrauen des Mülleimers. Dies zeigt an, dass das Modell für Proben in dieser Klasse nicht ausreichend vertrauenswürdig ist, und der rote Balken zeigt das Ausmaß der nicht ausreichenden Zuverlässigkeit für diese Klasse an.
Erwarteter Kalibrierungsfehler
Da Zuverlässigkeitsdiagramme nur ein visuelles Hilfsmittel zur Analyse von Modellfehlkalibrierungen sind, haben Guo et al. vorschlagen Erwarteter Kalibrierungsfehler als skalare Metrik zur Quantifizierung des Kalibrierungsfehlers. Es handelt sich um die durchschnittliche gewichtete Differenz zwischen Genauigkeit und Konfidenz über M-Bins für n Stichproben.
Für ein perfekt kalibriertes Modell ECE = 0. Es ist jedoch nicht möglich, ein perfekt kalibriertes Modell zu erhalten. Beziehen auf Das Papier für weitere Kalibrierungsmetriken.
Nehmen wir an, dass unser Datensatz 5 Bilder enthält. Hier sind die Grundwahrheitsbezeichnungen für diese 5 Bilder mit vorhergesagten Bezeichnungen (aus einem neuronalen Netzwerk) und den zugehörigen Wahrscheinlichkeiten.
Betrachten Sie die Anzahl der Klassen M als 4. Dann sind die Klassen gegeben durch
Die Genauigkeit und das Vertrauen jedes Behälters sind
Daher kann die ECE berechnet werden als:
In diesem Abschnitt untersuchen wir einige gängige Kalibrierungstechniken. Dazu gehören auch Techniken, die nicht als Kalibrierungstechniken vorgeschlagen wurden, sich aber nachweislich für die Kalibrierung neuronaler Netze eignen. Beachten Sie, dass wir nicht alle in der Literatur vorgestellten Kalibrierungstechniken abdecken.
Platt-Skalierung
Platt-Skalierung [3] ist eine Put up-hoc-Kalibrierungstechnik (d. h. nach dem Coaching eines neuronalen Netzwerks angewendet), die den Rating (oder Logit) der vorhergesagten Klasse als Eingabemerkmal verwendet, um ein logistisches Regressionsmodell zu trainieren, das kalibrierte Wahrscheinlichkeiten ausgibt. Binäre Klassifizierungsmodelle erzeugen nur einen Klassifizierungswert, sodass wir die kalibrierten Wahrscheinlichkeiten wie folgt erhalten können
Dies kann auch für ein Klassifizierungsproblem mit mehreren Klassen erweitert werden, und diese Methode wird als bezeichnet Matrixskalierung [1]. Für ein k-Beim Klassenklassifizierungsproblem wird eine lineare Transformation auf die zu erhaltenden Logits angewendet k-transformiert Protokolle.
Mithilfe dieser transformierten Logits werden die kalibrierte Wahrscheinlichkeit und die vorhergesagte Klasse wie folgt ermittelt
Da die Parameter von W quadratisch mit wachsen okay, Guo et al. vorschlagen Vektorskalierung in welchem W ist darauf beschränkt, eine Diagonalmatrix zu sein. Die Parameter in allen Varianten der Platt-Skalierung werden durch Minimierung optimiert Kreuzentropieverlust in Bezug auf einen zurückgehaltenen Validierungssatz (manchmal auch als zurückgehaltener Kalibrierungssatz bezeichnet). Notiere dass der Die Gewichtungen des Netzwerks werden nicht aktualisiert bei der Optimierung dieser Parameter.
Temperaturskalierung
Der Temperaturparameter T von Softmax kann verwendet werden, um Wahrscheinlichkeitswerte neu zu skalieren, was zu einer Änderung der Ausgabeverteilung führt.
T < 1 macht die Ausgabeverteilung spitzer (reduziert die Entropie), während T > 1 mildert die Ausgabeverteilung (erhöht die Entropie). Das Der Beitrag vom Statistik-Stack-Austausch bietet weitere Einblicke dahinter T.
Bei der Temperaturskalierung [1], T wird als skalarer Parameter behandelt und durch Minimierung des Kreuzentropieverlusts optimiert in Bezug auf einen ausgehaltenen Validierungssatz. Die Gewichtungen des Netzwerks werden bei der Optimierung nicht aktualisiert T.
Guo et al. [1] Zeigen Sie, dass ein einzelner Parameter optimiert wird T kann die ECE eines neuronalen Netzwerks erheblich verbessern. Sie zeigen auch, dass die Temperaturskalierung bei verschiedenen Bildklassifizierungsdatensätzen über CNN-Architekturen hinweg eine bessere Leistung erbringt als die Matrix- und Vektorskalierung. Schließlich zeigen die folgenden Zuverlässigkeitsdiagramme ein unkalibriertes Resnet-110-Netzwerk im Vergleich zu einem Resnet-110-Netzwerk, das mit Temperaturskalierung kalibriert wurde. Weitere Ergebnisse zur Temperaturskalierung und Platt-Skalierung finden Sie in Tabelle 1 Papier. Die Temperaturskalierung ist ebenfalls eine Put up-hoc-Kalibrierungstechnik.
Etikettenglättung
Label Smoothing wurde von Szegedy et al. eingeführt. [4] als Regularisierungstechnik für tiefe neuronale Netze. Bei der Label-Glättung werden die Ziele für ein Klassifizierungsmodell abgemildert, indem eine gewichtete Kombination des ursprünglichen Ziels durchgeführt wird j und die gleichmäßige Verteilung über Etiketten 1/Ok (was nicht von Trainingsbeispielen abhängt). Der Parameter ɑ steuert den Grad der Glättung.
In ihrer Arbeit aus dem Jahr 2019 „Wann hilft die Etikettenglättung?“, Hinton et al. [5] zeigen, dass die Anwendung der Etikettenglättung zu einer impliziten Kalibrierung neuronaler Netze führt. Die Autoren behaupten, dass die Die Aufweichung von Zielen führt zu einer Aufweichung von Softmax-Logits (d. h. Protokolle der letzten Schicht), was dazu beiträgt, übermäßiges Vertrauen zu reduzieren und anschließend den ECE des Netzwerks zu reduzieren. Nachfolgend werden die Ergebnisse für Bildklassifizierung (Resnet-56- und Inception-v4-Architekturen) und maschinelle Übersetzungsaufgaben (Transformer-Architektur) angezeigt. Die Tabelle zeigt auch, dass die Auswirkungen der Etikettenglättung und der Temperaturskalierung auf die Kalibrierung des neuronalen Netzwerks ähnlich sind.
Verwechseln
Mixup ist eine Datenerweiterungstechnik, bei der neue Stichproben durch eine konvexe Kombination zweier zufällig ausgewählter Bilder und ihrer entsprechenden Beschriftungen generiert werden [6]. Das Kombinieren von Etiketten zweier Proben ähnelt der Etikettenglättung, dh es werden weiche Etiketten für die neu generierten Bilder erzeugt. Der Parameter ɑ weist den beiden Bildern Gewichte und ihre jeweiligen Bezeichnungen für die konvexe Kombination zu.
In der Zeitung „Zum Mixup-Training: Verbesserte Kalibrierung und Vorhersageunsicherheit für tiefe neuronale Netze“, Thulasidasan et al. [7] Sag das Verwechslung hat einen Regularisierungseffekt im Netzwerk, was dazu führt reduzierte Überanpassung und Auswendiglernen, was die Selbstüberschätzung des Netzwerks eindämmt. Die folgenden Diagramme zeigen, dass die Verwechslung das Drawback hat niedrigster ECE (Kalibrierungsfehler) mit eine hohe Testgenauigkeit im Vergleich zu anderen Kalibrierungstechniken wie der Etikettenglättung über vier Datensätze hinweg bei der Bildklassifizierungsaufgabe.
Fokusverlust
Der Fokusverlust wurde vorgeschlagen, um Klassenungleichgewichte bei Sehaufgaben wie der Objekterkennung zu beseitigen [8]. Der Fokusverlust modifiziert den Kreuzentropieverlust mithilfe eines multiplikativen Faktors, der es dem Netzwerk ermöglicht, sich auf harte Proben zu konzentrieren, die schwer korrekt zu klassifizieren sind. Bei leicht zu klassifizierenden Stichproben ist die vorhergesagte Wahrscheinlichkeit höher und der multiplikative Time period führt dazu, dass der Verlust für diese Stichprobe sehr gering ist. Dadurch kann sich das Netzwerk auf Proben mit einem höheren Verlust konzentrieren.
In der Zeitung „Kalibrierung tiefer neuronaler Netze mithilfe von Focal Loss „, Mukhoti et al. [9] zeigen, dass der Fokusverlust eine regulierte KL-Divergenz zwischen der vorhergesagten (Softmax) und der Zielverteilung minimiert.
Daher gehen die Autoren davon aus, dass die Minimierung des Fokusverlusts eine Minimierung der KL-Divergenz zwischen den beiden Verteilungen und eine Erhöhung der Entropie der vorhergesagten Verteilung erfordert. Dieser Anstieg der Entropie mildert die Ausgabeverteilung und dämmt übertriebene Vorhersagen in tiefen neuronalen Netzen ein. Die Autoren schlagen außerdem einen probenabhängigen Zeitplan namens FLSD vor, der dem Parameter Ɣ basierend auf vordefinierten Bereichen der vorhergesagten Wahrscheinlichkeit dynamisch einen Wert zuweist. Darüber hinaus wird gezeigt, dass Fokusverlust mit Temperaturskalierung kombiniert werden kann, um die Kalibrierung des Netzwerks weiter zu verbessern. Im Großen und Ganzen schneiden Fokusverlust und FLSD besser ab als Basiskalibrierungsmethoden wie Label-Glättung über verschiedene Architekturen hinweg für CIFAR-10, CIFAR-100 und Tiny-Imagenet. Eine Übersicht aller Ergebnisse finden Sie in Tabelle 1 des Papiers.
In diesem Artikel haben wir das Konzept der Kalibrierung in tiefen neuronalen Netzen vorgestellt. Wir haben besprochen, wie Zuverlässigkeitsdiagramme und ECE Kalibrierungsfehler messen. Abschließend haben wir einige Kalibrierungstechniken erläutert, mit denen neuronale Netze zuverlässige und interpretierbare Konfidenzschätzungen ausgeben können.
Verweise
[1] Guo, Chuan et al. „Zur Kalibrierung moderner neuronaler Netze.” Internationale Konferenz zum Thema maschinelles Lernen. PMLR, 2017.
[2] Lin, Zhen, Shubhendu Trivedi und Jimeng Solar. „Machen Sie einen Schritt zurück mit KCal: Multi-Class-Kernel-basierte Kalibrierung für tiefe neuronale Netze.” arXiv-Vorabdruck arXiv:2202.07679 (2022)
[3] Gualtieri, J. Anthony, et al. „Unterstützt Vektormaschinenklassifikatoren, die auf AVIRIS-Daten angewendet werden.“ Proz. Achter JPL Airborne Geoscience Workshop. 1999.
[4] Szegedy, Christian et al. „Überdenken der Anfangsarchitektur für Computer Vision.” Tagungsband der IEEE-Konferenz zu Laptop Imaginative and prescient und Mustererkennung. 2016.
[5] Müller, Rafael, Simon Kornblith und Geoffrey E. Hinton. „Wann hilft die Etikettenglättung?” Fortschritte in neuronalen Informationsverarbeitungssystemen 32 (2019).
[6] Zhang, Hongyi et al. „Verwechslung: Jenseits der empirischen Risikominimierung.“ arXiv-Vorabdruck arXiv:1710.09412 (2017).
[7] Thulasidasan, Sunil et al. „Zum Mixup-Training: Verbesserte Kalibrierung und Vorhersageunsicherheit für tiefe neuronale Netze.“ Fortschritte in neuronalen Informationsverarbeitungssystemen 32 (2019).
[8] Lin, Tsung-Yi et al. „Fokusverlust für die Erkennung dichter Objekte.“ Tagungsband der internationalen IEEE-Konferenz zum Thema Laptop Imaginative and prescient. 2017.
[9] Mukhoti, Jishnu et al. „Kalibrierung tiefer neuronaler Netze mithilfe von Fokusverlust.“ Fortschritte in neuronalen Informationsverarbeitungssystemen 33 (2020): 15288–15299.
[10] Nixon, Jeremy et al. „Messung der Kalibrierung im Deep Learning.” CVPR-Workshops. Bd. 2. №7. 2019.
[11] Welche Rolle spielt die Temperatur in Softmax?[Cross Validated]