- Korrigieren von Roboterplänen mit Suggestions in natürlicher Sprache (arXiv)
Autor: Pratyusha Sharma, Balakumar Sundaralingam, Valts Blukis, Chris Paxton, Tucker Hermans, Antonio Torralba, Jakob Andreas, Dieter Fuchs
Zusammenfassung: Wenn Menschen Kosten- oder Zielspezifikationen für Roboter entwerfen, erstellen sie häufig Spezifikationen, die mehrdeutig oder unzureichend spezifiziert sind oder die von Planern nicht gelöst werden können. In diesen Fällen stellen Korrekturen ein wertvolles Werkzeug für die Human-in-the-Loop-Robotersteuerung dar. Korrekturen können in Kind neuer Zielvorgaben, neuer Einschränkungen (z. B. um bestimmte Objekte zu meiden) oder Hinweisen für Planungsalgorithmen (z. B. um bestimmte Wegpunkte zu besuchen) erfolgen. Bestehende Korrekturmethoden (z. B. Verwendung eines Joysticks oder direkte Manipulation eines Endeffektors) erfordern eine vollständige Teleoperation oder Echtzeitinteraktion. In diesem Artikel untersuchen wir natürliche Sprache als ausdrucksstarkes und flexibles Werkzeug zur Roboterkorrektur. Wir beschreiben, wie man Sätze in natürlicher Sprache auf Transformationen von Kostenfunktionen abbildet. Wir zeigen, dass diese Transformationen es Benutzern ermöglichen, Ziele zu korrigieren, Roboterbewegungen zu aktualisieren, um zusätzliche Benutzerpräferenzen zu berücksichtigen, und Planungsfehler zu beheben. Diese Korrekturen können genutzt werden, um eine Erfolgsquote von 81 % bzw. 93 % bei Aufgaben zu erreichen, bei denen der ursprüngliche Planer versagt hat, mit entweder einer oder zwei Sprachkorrekturen. Unsere Methode ermöglicht die Erstellung mehrerer Einschränkungen und die Verallgemeinerung auf unsichtbare Szenen, Objekte und Sätze in simulierten Umgebungen und realen Umgebungen.
2.Conversational Trend Picture Retrieval über Multiturn Pure Language Suggestions (arXiv)
Autor: Yifei Yuan, Wai Lam
Zusammenfassung: Wir untersuchen die Aufgabe des konversationsorientierten Bildabrufs in der Mode mittels Multiturn-Suggestions in natürlicher Sprache. Die meisten bisherigen Studien basieren auf Single-Flip-Einstellungen. Bestehende Modelle zum Multiturn-Konversationsabruf von Modebildern weisen Einschränkungen auf, z. B. die Verwendung traditioneller Modelle, und führen zu einer ineffektiven Leistung. Wir schlagen ein neuartiges Framework vor, das das Abrufen konversationsorientierter Modebilder mit Multiturn-Feedbacktexten in natürlicher Sprache effektiv handhaben kann. Ein Merkmal des Frameworks besteht darin, dass es nach Kandidatenbildern sucht, basierend auf der Nutzung des codierten Referenzbilds und der Suggestions-Textinformationen zusammen mit dem Gesprächsverlauf. Darüber hinaus werden die Bildmodeattributinformationen über eine Strategie der gegenseitigen Aufmerksamkeit genutzt. Da es keinen vorhandenen Modedatensatz gibt, der für die Multiturn-Einstellung unserer Aufgabe geeignet ist, leiten wir einen groß angelegten Multiturn-Modedatensatz durch zusätzliche manuelle Annotationsbemühungen an einem vorhandenen Singleturn-Datensatz ab. Die Experimente zeigen, dass unser vorgeschlagenes Modell bestehende, hochmoderne Methoden deutlich übertrifft.