Übermenschliche Leistung beim Atari 100K-Benchmark: Die Kraft von BBF – ein neuer wertbasierter RL-Agent von Google DeepMind, Mila und der Universite de Montreal

0
26


Deep Reinforcement Studying (RL) hat sich zu einem leistungsstarken Algorithmus für maschinelles Lernen zur Bewältigung komplexer Entscheidungsaufgaben entwickelt. Um die Herausforderung zu meistern, beim Deep RL-Coaching eine Probeneffizienz auf menschlicher Ebene zu erreichen, hat ein Forscherteam von Google DeepMind, Mila und der Universite de Montreal einen neuartigen wertbasierten RL-Agenten namens „schneller, besser, schneller“ (BBF) eingeführt. . In ihrer jüngsten Arbeit „Größer, besser, schneller: Atari auf menschlichem Niveau mit Effizienz auf menschlichem Niveau“ Das Crew präsentiert den BBF-Agenten, der im Atari 100K-Benchmark mit einer einzigen GPU übermenschliche Leistung demonstriert.

Lösung des Skalierungsproblems

Das Hauptaugenmerk des Forschungsteams lag auf der Lösung des Skalierungsproblems neuronaler Netze in Deep RL, wenn nur begrenzte Stichproben vorhanden sind. Aufbauend auf dem von D’Oro et al. entwickelten SR-SPR-Agenten. (2023), das eine Shrink-and-Perturb-Methode verwendet, stört BBF 50 Prozent der Parameter der Faltungsschichten in Richtung eines zufälligen Ziels. Im Gegensatz dazu stört SR-SPR nur 20 Prozent der Parameter. Diese Änderung führt zu einer verbesserten Leistung des BBF-Agenten.

Skalierung der Netzwerkkapazität

Um die Netzwerkkapazität zu skalieren, nutzen die Forscher das Impala-CNN-Netzwerk und erhöhen die Größe jeder Schicht um das Vierfache. Es wurde beobachtet, dass BBF SR-SPR durchweg übertrifft, wenn die Breite des Netzwerks zunimmt, während SR-SPR seinen Höhepunkt beim 1-2-fachen der ursprünglichen Größe erreicht.

Verbesserungen für bessere Leistung

BBF führt eine Replace-Horizont-Komponente ein, die exponentiell von 10 auf 3 abnimmt. Überraschenderweise führt diese Modifikation zu einem stärkeren Agenten als Festwert-Agenten wie Rainbow und SR-SPR. Darüber hinaus wenden die Forscher eine Gewichtsabnahmestrategie an und erhöhen den Abzinsungsfaktor während des Lernens, um statistische Überanpassungsprobleme zu lindern.

Empirische Studie und Ergebnisse

In ihrer empirischen Studie vergleicht das Forschungsteam die Leistung des BBF-Agenten mit mehreren Foundation-RL-Agenten, darunter SR-SPR, SPR, DrQ (eps) und IRIS, auf dem Atari 100K-Benchmark. BBF übertrifft alle Konkurrenten sowohl hinsichtlich der Leistung als auch des Rechenaufwands. Insbesondere erreicht BBF eine zweifache Leistungssteigerung gegenüber SR-SPR und nutzt dabei nahezu die gleichen Rechenressourcen. Darüber hinaus zeigt BBF eine vergleichbare Leistung wie der modellbasierte EfficientZero-Ansatz, jedoch mit einer mehr als vierfachen Reduzierung der Laufzeit.

Zukünftige Auswirkungen und Verfügbarkeit

Die Einführung des BBF-Agenten stellt einen bedeutenden Fortschritt beim Erreichen übermenschlicher Leistung in Deep RL dar, insbesondere beim Atari 100K-Benchmark. Das Forschungsteam hofft, dass ihre Arbeit zukünftige Bemühungen inspirieren wird, die Grenzen der Probeneffizienz in der tiefen RL zu erweitern. Der Code und die Daten des BBF-Agenten sind auf der Web site des Projekts öffentlich verfügbar GitHub-RepositoryDadurch können Forscher ihre Erkenntnisse erforschen und darauf aufbauen.

Mit der Einführung des BBF-Agenten haben Google DeepMind und seine Mitarbeiter bemerkenswerte Fortschritte beim Deep Reinforcement Studying gezeigt. Durch die Bewältigung der Herausforderung der Probeneffizienz und die Nutzung von Fortschritten bei der Netzwerkskalierung und Leistungsverbesserungen erreicht der BBF-Agent eine übermenschliche Leistung beim Atari 100K-Benchmark. Diese Arbeit eröffnet neue Möglichkeiten zur Verbesserung der Effizienz und Effektivität von RL-Algorithmen und ebnet den Weg für weitere Fortschritte auf diesem Gebiet.


Besuche die Papier Und Github. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an


Niharika ist Praktikantin im Bereich technische Beratung bei Marktechpost. Sie studiert im dritten Jahr und macht derzeit ihren B.Tech am Indian Institute of Know-how (IIT) in Kharagpur. Sie ist eine äußerst enthusiastische Particular person mit großem Interesse an maschinellem Lernen, Datenwissenschaft und KI und eine begeisterte Leserin der neuesten Entwicklungen in diesen Bereichen.




Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here