Belohnung ist die treibende Kraft für Reinforcement Studying (RL)-Agenten. Aufgrund ihrer zentralen Rolle im RL wird oft davon ausgegangen, dass Belohnung in ihrer Ausdruckskraft angemessen allgemein ist, wie in der Belohnungshypothese von Sutton und Littman zusammengefasst:
„…alles, was wir unter Zielen und Zwecken verstehen, kann man sich intestine als Maximierung des erwarteten Werts der kumulativen Summe eines empfangenen Skalarsignals (Belohnung) vorstellen.“
– SUTTON (2004), LITTMAN (2017)
In unserer Arbeit unternehmen wir erste Schritte zur systematischen Untersuchung dieser Hypothese. Dazu betrachten wir das folgende Gedankenexperiment mit Alice, einer Designerin, und Bob, einem Lernagenten:
Wir gehen davon aus, dass Alice sich eine Aufgabe ausdenkt, deren Lösung Bob ihrer Meinung nach lernen soll – diese Aufgabe könnte in der Kind einer Beschreibung in natürlicher Sprache („balancieren Sie diesen Pol“) oder eines imaginären Sachverhalts („erreichen Sie eine der Gewinnkonfigurationen von“) vorliegen ein Schachbrett“) oder etwas Traditionelleres wie eine Belohnungs- oder Wertfunktion. Dann stellen wir uns vor, dass Alice ihre Aufgabenwahl in einen Generator übersetzt, der Bob (einem Lernagenten) ein Lernsignal (z. B. eine Belohnung) liefert, der sein ganzes Leben lang aus diesem Sign lernen wird. Anschließend begründen wir unser Studium der Belohnungshypothese mit der Beantwortung der folgenden Frage: Gibt es angesichts der von Alice gewählten Aufgabe immer eine Belohnungsfunktion, die diese Aufgabe an Bob übertragen kann?
Was ist eine Aufgabe?
Um unsere Untersuchung dieser Frage zu konkretisieren, beschränken wir den Fokus zunächst auf drei Arten von Aufgaben. Insbesondere stellen wir drei Aufgabentypen vor, die unserer Meinung nach sinnvolle Arten von Aufgaben erfassen: 1) Eine Reihe akzeptabler Richtlinien (SOAP), 2) Eine Richtlinienanweisung (PO) und 3) Eine Trajektorienanweisung (TO). Diese drei Arten von Aufgaben stellen konkrete Beispiele für die Arten von Aufgaben dar, deren Lösung ein Agent lernen soll.
.jpg)
Anschließend untersuchen wir, ob die Belohnung in der Lage ist, jeden dieser Aufgabentypen in endlichen Umgebungen zu erfassen. Entscheidend ist, dass wir unsere Aufmerksamkeit nur auf Markov-Belohnungsfunktionen richten; Gibt es beispielsweise bei einem Zustandsraum, der ausreicht, um eine Aufgabe wie (x,y)-Paare in einer Gitterwelt zu bilden, eine Belohnungsfunktion, die nur von diesem Zustandsraum abhängt und die Aufgabe erfassen kann?
Erstes Hauptergebnis
Unser erstes Hauptergebnis zeigt, dass es für jeden der drei Aufgabentypen Umgebungs-Aufgabenpaare gibt, für die es keine Markov-Belohnungsfunktion gibt, die die Aufgabe erfassen kann. Ein Beispiel für ein solches Paar ist die Aufgabe „das Gitter im Uhrzeigersinn oder gegen den Uhrzeigersinn vollständig umrunden“ in einer typischen Gitterwelt:
.jpg)
Diese Aufgabe wird natürlich von einer SOAP erfasst, die aus zwei akzeptablen Richtlinien besteht: der Richtlinie „im Uhrzeigersinn“ (in Blau) und der Richtlinie „gegen den Uhrzeigersinn“ (in Lila). Damit eine Markov-Belohnungsfunktion diese Aufgabe ausdrücken kann, müsste sie diesen beiden Richtlinien einen unbedingt höheren Wert verleihen als allen anderen deterministischen Richtlinien. Es gibt jedoch keine solche Markov-Belohnungsfunktion: Die Optimalität einer einzelnen Aktion „im Uhrzeigersinn bewegen“ hängt davon ab, ob sich der Agent in der Vergangenheit bereits in diese Richtung bewegt hat. Da die Belohnungsfunktion Markov sein muss, kann sie diese Artwork von Informationen nicht vermitteln. Ähnliche Beispiele zeigen, dass die Markov-Belohnung nicht jede politische Reihenfolge und Flugbahnreihenfolge erfassen kann.
Zweites Hauptergebnis
Angesichts der Tatsache, dass einige Aufgaben erfasst werden können und andere nicht, untersuchen wir als Nächstes, ob es ein effizientes Verfahren gibt, um zu bestimmen, ob eine bestimmte Aufgabe in einer bestimmten Umgebung durch Belohnung erfasst werden kann. Wenn es außerdem eine Belohnungsfunktion gibt, die die gegebene Aufgabe erfasst, möchten wir idealerweise in der Lage sein, eine solche Belohnungsfunktion auszugeben. Unser zweites Ergebnis ist ein positives Ergebnis, das besagt, dass es für jedes endliche Umgebungs-Aufgaben-Paar eine Prozedur gibt, die 1) entscheiden kann, ob die Aufgabe durch die Markov-Belohnung in der gegebenen Umgebung erfasst werden kann, und 2) die gewünschte Belohnungsfunktion ausgibt gibt die Aufgabe genau wieder, wenn eine solche Funktion existiert.
Diese Arbeit legt erste Wege zum Verständnis des Umfangs der Belohnungshypothese fest, aber es bleibt noch viel zu tun, um diese Ergebnisse über endliche Umgebungen, Markov-Belohnungen und einfache Vorstellungen von „Aufgabe“ und „Ausdruck“ hinaus zu verallgemeinern. Wir hoffen, dass diese Arbeit neue konzeptionelle Perspektiven zur Belohnung und ihrem Platz beim verstärkenden Lernen bietet.