- Extraktion polyedrischer Komplexe aus ReLU-Netzwerken mithilfe der Kantenunterteilung (arXiv)
Autor: Arturs Berzins
Zusammenfassung: Ein neuronales Netzwerk, das aus stückweise affinen Bausteinen wie vollständig verbundenen Schichten und ReLU-Aktivierungen besteht, ist selbst eine stückweise affine Funktion, die auf einem polyedrischen Komplex unterstützt wird. Dieser Komplex wurde bereits früher untersucht, um die theoretischen Eigenschaften neuronaler Netze zu charakterisieren, aber in der Praxis bleibt seine Extraktion aufgrund seiner hohen kombinatorischen Komplexität eine Herausforderung. Eine in früheren Arbeiten beschriebene natürliche Idee besteht darin, die Regionen über Schnittpunkte mit von jedem Neuron induzierten Hyperebenen zu unterteilen. Wir argumentieren jedoch, dass diese Ansicht zu rechnerischer Redundanz führt. Anstelle von Regionen schlagen wir die Unterteilung von Kanten vor, was zu einer neuartigen Methode zur Extraktion polyedrischer Komplexe führt. Ein Schlüssel dazu sind Vorzeichenvektoren, die die kombinatorische Struktur des Komplexes kodieren. Unser Ansatz ermöglicht die Verwendung von Customary-Tensoroperationen auf einer GPU, die für Millionen von Zellen auf einer Verbrauchermaschine Sekunden dauern. Motiviert durch das wachsende Interesse an der Darstellung neuronaler Formen nutzen wir die Geschwindigkeit und Differenzierbarkeit unserer Methode, um geometrische Eigenschaften des Komplexes zu optimieren. Der Code ist verfügbar unter https://github.com/arturs-berzins/relu_edge_subdivision
2. Versteckte Symmetrien von ReLU-Netzwerken (arXiv)
Autor: J. Elisenda Grigsby, Kathryn Lindsey, David Rolnick
Zusammenfassung: Der Parameterraum für jede feste Architektur von Feedforward-ReLU-Neuronalen Netzen dient während des Trainings als Proxy für die zugehörige Funktionsklasse – aber wie genau ist diese Darstellung? Es ist bekannt, dass viele verschiedene Parametereinstellungen die gleiche Funktion bestimmen können. Darüber hinaus ist der Grad dieser Redundanz inhomogen: Bei einigen Netzwerken sind die einzigen Symmetrien die Permutation von Neuronen in einer Schicht und die optimistic Skalierung von Parametern an einem Neuron, während andere Netzwerke zusätzliche versteckte Symmetrien zulassen. In dieser Arbeit beweisen wir, dass es für jede Netzwerkarchitektur, bei der keine Schicht schmaler als die Eingabe ist, Parametereinstellungen ohne versteckte Symmetrien gibt. Wir beschreiben auch eine Reihe von Mechanismen, durch die versteckte Symmetrien entstehen können, und nähern empirisch die funktionale Dimension verschiedener Netzwerkarchitekturen bei der Initialisierung an. Diese Experimente zeigen, dass die Wahrscheinlichkeit, dass ein Netzwerk keine versteckten Symmetrien aufweist, mit zunehmender Tiefe in Richtung 0 abnimmt, während sie mit zunehmender Breite und Eingabedimension in Richtung 1 zunimmt.