Indem Systeme, die den Anweisungen von grafischen Benutzeroberflächen (GUIs) folgen können, Benutzern die Verbindung mit Instruments und Diensten ermöglichen, können sie mühsame Aufgaben automatisieren, die Zugänglichkeit verbessern und den Nutzen digitaler Assistenten erhöhen.
Viele GUI-basierte Implementierungen digitaler Agenten basieren auf von HTML abgeleiteten Textdarstellungen, die nicht immer ohne weiteres verfügbar sind. Menschen nutzen GUIs, indem sie die visuelle Eingabe wahrnehmen und mit Commonplace-Maus- und Tastaturkürzeln darauf reagieren. Sie müssen sich nicht den Quellcode der Anwendung ansehen, um herauszufinden, wie das Programm funktioniert. Unabhängig von der zugrunde liegenden Technologie können sie neue Programme mit intuitiven grafischen Benutzeroberflächen schnell erlernen.
Das Atari-Spielesystem ist nur ein Beispiel dafür, wie intestine ein System funktionieren kann, das nur aus Pixeleingaben lernt. Es gibt jedoch viele Hindernisse beim Lernen aus reinen Pixeleingaben in Verbindung mit generischen Low-Degree-Aktionen, wenn man GUI-basierte Anweisungen zur Befolgung von Aufgaben versucht. Um eine GUI visuell zu interpretieren, muss man mit der Struktur der Schnittstelle vertraut sein, in der Lage sein, visuell lokalisierte natürliche Sprache zu erkennen und zu interpretieren, visuelle Elemente zu erkennen und zu identifizieren und die Funktionen und Interaktionsmethoden dieser Elemente vorherzusagen.
Google DeepMind und Google stellen PIX2ACT vor, ein Modell, das pixelbasierte Screenshots als Eingabe verwendet und Aktionen auswählt, die zu grundlegenden Maus- und Tastatursteuerungen passen. Zum ersten Mal zeigt die Forschungsgruppe, dass ein Agent mit nur Pixeleingaben und einem generischen Aktionsraum menschliche Crowdworker übertreffen kann und eine Leistung erzielt, die mit hochmodernen Agenten vergleichbar ist, die DOM-Informationen und eine vergleichbare Anzahl menschlicher Demonstrationen verwenden .
Dazu bauen die Forscher auf PIX2STRUCT auf. Dieses Transformer-basierte Bild-zu-Textual content-Modell wurde bereits an umfangreichen On-line-Daten trainiert, um Screenshots in strukturierte Darstellungen auf HTML-Foundation umzuwandeln. PIX2ACT nutzt die Baumsuche, um wiederholt neue Expertentrajektorien für die Schulung zu konstruieren und nutzt dabei eine Kombination aus menschlichen Demonstrationen und Interaktionen mit der Umgebung.
Die Bemühungen des Groups umfassen hier die Erstellung eines Frameworks für universelle browserbasierte Umgebungen und die Anpassung zweier Benchmark-Datensätze, MiniWob++ und WebShop, für die Verwendung in ihrer Umgebung unter Verwendung eines standardmäßigen, domänenübergreifenden Beobachtungs- und Aktionsformats. Mit der vorgeschlagenen Possibility (CC-Web ohne DOM) übertrifft PIX2ACT menschliche Crowdworker auf MiniWob++ etwa viermal. Ablationen zeigen, dass das pixelbasierte Vortraining von PIX2STRUCT für die Leistung von PIX2ACT von entscheidender Bedeutung ist.
Für GUI-basierte Anweisungen nach pixelbasierten Eingaben zeigen die Ergebnisse die Wirksamkeit des Vortrainings von PIX2STRUCT durch Screenshot-Analyse. Das Vortraining in einer Umgebung zum Verhaltensklonen erhöht die Aufgabenbewertungen von MiniWob++ und WebShop um 17,1 bzw. 46,7. Obwohl im Vergleich zu größeren Sprachmodellen, die HTML-basierte Eingaben und aufgabenspezifische Aktionen verwenden, immer noch ein Leistungsnachteil besteht, hat diese Arbeit die erste Grundlage in dieser Umgebung geschaffen.
Besuche die Papier. Vergessen Sie nicht, mitzumachen unser 23k+ ML SubReddit, Discord-Kanal, Und E-Mail-Newsletter, wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an Asif@marktechpost.com
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Tanushree Shenwai ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert sie ihren B.Tech am Indian Institute of Expertise (IIT) in Bhubaneswar. Sie ist eine begeisterte Knowledge-Science-Enthusiastin und hat großes Interesse am Anwendungsbereich künstlicher Intelligenz in verschiedenen Bereichen. Ihre Leidenschaft gilt der Erforschung neuer technologischer Fortschritte und ihrer praktischen Anwendung.