Lernen robuster kultureller Übertragung in Echtzeit ohne menschliche Daten

0
29


Im Laufe der Jahrtausende hat die Menschheit eine Fülle an kulturellem Wissen entdeckt, weiterentwickelt und angesammelt, von Navigationsrouten über Mathematik und soziale Normen bis hin zu Kunstwerken. Kulturelle Übertragung, definiert als effiziente Weitergabe von Informationen von einem Individuum an ein anderes, ist der Vererbungsprozess, der dieser exponentiellen Steigerung menschlicher Fähigkeiten zugrunde liegt.

Unser Agent in Blau imitiert und erinnert sich an die Demonstration von Bots (hyperlinks) und Menschen (rechts) in Rot.

Weitere Movies unserer Agenten in Aktion finden Sie auf unserer Webseite.

In dieser Arbeit nutzen wir Deep Reinforcement Studying, um künstliche Agenten zu erzeugen, die in der Lage sind, Kulturübertragungen in Testzeiten durchzuführen. Nach der Schulung können unsere Agenten von Experten demonstrierte Navigationskenntnisse ableiten und abrufen. Dieser Wissenstransfer erfolgt in Echtzeit und verallgemeinert sich über einen riesigen Bereich bisher ungesehener Aufgaben. Beispielsweise können unsere Agenten schnell neue Verhaltensweisen erlernen, indem sie eine einzelne menschliche Demonstration beobachten, ohne jemals anhand menschlicher Daten geschult zu werden.

Eine Zusammenfassung unserer verstärkenden Lernumgebung. Bei den Aufgaben handelt es sich um Navigationsdarstellungen für eine breite Klasse menschlicher Fähigkeiten, die bestimmte Abfolgen strategischer Entscheidungen erfordern, wie etwa Kochen, Orientierung und Problemlösung.

Wir trainieren und testen unsere Agenten in prozedural generierten 3D-Welten, die farbenfrohe, kugelförmige Ziele enthalten, eingebettet in ein lautes Gelände voller Hindernisse. Ein Spieler muss durch die Ziele in der richtigen Reihenfolge navigieren, die sich in jeder Episode zufällig ändert. Da es unmöglich ist, die Reihenfolge zu erraten, ist eine naive Explorationsstrategie mit einer hohen Strafe verbunden. Als Quelle kulturell übermittelter Informationen stellen wir einen privilegierten „Bot“ zur Verfügung, der Ziele stets in der richtigen Reihenfolge eingibt.

6227d611c9968b617accf2a9 Fig%202
6227d6414a3de27de2d3f161 Fig%203
Unser MEDAL(-ADR)-Agent übertrifft Ablationen bei ausstehenden Aufgaben, in Welten ohne Hindernisse (oben) und mit Hindernissen (unten).

Durch Ablationen identifizieren wir ein minimal ausreichendes „Starterkit“ an Trainingsbestandteilen, die für die Entstehung einer kulturellen Übertragung erforderlich sind, genannt MEDAL-ADR. Zu diesen Komponenten gehören Gedächtnis (M), Experten-Dropout (ED), Aufmerksamkeitsverzerrung gegenüber dem Experten (AL) und automatische Domänen-Randomisierung (ADR). Unser Agent übertrifft die Ablationen, einschließlich der hochmodernen Methode (ME-AL), bei einer Reihe herausfordernder Aufgaben. Die kulturelle Übertragung verallgemeinert sich überraschend intestine außerhalb der Verteilung, und der Agent erinnert sich an Demonstrationen, lange nachdem der Experte gegangen ist. Wenn wir in das Gehirn des Agenten schauen, finden wir auffallend interpretierbare Neuronen, die für die Kodierung sozialer Informationen und Zielzustände verantwortlich sind.

6227d69116dd17585eae51a5 Fig%204
6227d69a721902e35c03584d Fig%205
Unser Agent verallgemeinert außerhalb der Trainingsverteilung (oben) und verfügt über einzelne Neuronen, die soziale Informationen kodieren (unten).

Zusammenfassend stellen wir ein Verfahren zum Trainieren eines Agenten bereit, der in der Lage ist, eine versatile, hochpräzise Kulturübertragung in Echtzeit durchzuführen, ohne menschliche Daten in der Trainingspipeline zu verwenden. Dies ebnet den Weg für die kulturelle Evolution als Algorithmus zur Entwicklung allgemein intelligenter künstlicher Agenten.

Die Anmerkungen dieser Autoren basieren auf der gemeinsamen Arbeit des Cultural Normal Intelligence Groups: Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Fréchette, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Yanko Oliveira, Julia Pawar, Miruna Pîslar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl und Lei M. Zhang.

Lesen Sie den vollständigen Artikel Hier.



Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here