Van praktijk naar simulatie naar praktijk

Tijdrovende huishoudelijke klusjes staan bovenaan de wensenlijst van veel automatiseringsexperts. MIT CSAIL doet onderzoek hoe het sneller kan.

De taak van automatiseerders is het vinden van de juiste combinatie van hardware en software. Doel is dat een machine 'generalistische' beleidsregels (die het gedrag van robots sturen) kan leren die overal en onder alle omstandigheden werken. Onderzoekers van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van het Massachusetts Institute of Technology (MIT) proberen een oplossing te vinden door robuuste robotbeleidsregels te trainen voor specifieke omgevingen zoals huishoudens.

Digitale tweelingen

De onderzoekers streven ernaar dat robots goed presteren onder verstoringen, afleidingen, wisselende lichtomstandigheden en veranderingen in objectposities, en dat binnen één enkele omgeving. Ze stellen een methode voor om 'on the fly' digitale tweelingen te creëren met behulp van computer vision. Met alleen zijn of haar telefoon kan iedereen een digitale replica van de echte wereld vastleggen. Robots kunnen veel sneller trainen in een gesimuleerde omgeving dan in de echte wereld, dankzij GPU-parallellisatie.

Deze aanpak elimineert de noodzaak voor uitgebreide 'reward engineering' door een paar demonstraties uit de echte wereld te gebruiken om het trainingsproces een snelle start te geven. Onderzoek hiernaar is ondergebracht in het RialTo project.

Robot thuis

RialTo is iets ingewikkelder dan een vertaling van een telefoon naar een thuisrobot naar keuze. Het begint met het scannen van de doelomgeving met uw apparaat met behulp van geschikte tools. Zodra de situatie digitaal is gereconstrueerd, kunnen gebruikers deze uploaden naar de interface van RialTo om gedetailleerde aanpassingen te maken, de nodige gewrichten aan de robots toe te voegen en meer.

De verfijnde scène wordt geëxporteerd en in een simulator gebracht. Hier is het doel om een beleid te ontwikkelen op basis van acties en observaties uit de echte wereld, zoals het oppakken van een kopje. Deze demonstraties uit de echte wereld worden gerepliceerd in de simulatie, wat waardevolle gegevens oplevert voor reinforcement learning. Dit helpt bij het creëren van een sterk beleid dat zowel in de simulatie als in de echte wereld goed werkt. Een verbeterd algoritme met behulp van reinforcement learning helpt dit proces te begeleiden, om ervoor te zorgen dat het beleid effectief is wanneer het buiten de simulator wordt toegepast.

Testen

Testen toonden aan dat RialTo sterke beleidsregels creëerde voor verschillende taken, of het nu in gecontroleerde labomgevingen was of in onvoorspelbare echte omgevingen. Het leverde een verbetering van 67% op ten opzichte van imitation learning met hetzelfde aantal demonstraties. Voor elke taak testten de onderzoekers de prestaties van het systeem onder drie toenemende moeilijkheidsgraden: het willekeurig maken van objectposities, het toevoegen van visuele afleiders en het toepassen van fysieke verstoringen tijdens taakuitvoeringen.

In combinatie met echte gegevens presteerde het systeem beter dan traditionele imitation learning methoden, vooral in situaties met veel visuele afleidingen of fysieke verstoringen. Volgens de onderzoekers laten deze experimenten zien dat het gebruik van digitale tweelingen tot hogere robuustheid leidt dan grootschalige dataverzameling in diverse omgevingen.

Volgende stap

De methode heeft ook zijn beperkingen. Het duurt momenteel drie dagen om RialTo volledig te trainen. Om dit te versnellen, wil het team de onderliggende algoritmen en het gebruiken van basismodellen verbeteren. Momenteel is het moeilijk om simulatie-naar-echt overdracht te doen en vervormbare objecten of vloeistoffen te simuleren.

Voortbouwend op eerdere inspanningen werken de onderzoekers aan het behouden van robuustheid tegen verschillende verstoringen. Tegelijkertijd willen ze de aanpasbaarheid van het model aan nieuwe omgevingen verbeteren. Hun volgende inspanning is, vooraf getrainde modellen te gebruiken, het leerproces te versnellen, menselijke input te minimaliseren en bredere generalisatiemogelijkheden te bereiken.

Doel van het 'on the fly' programmeersconcept waarbij robots autonoom hun omgeving kunnen scannen en leren hoe ze specifieke taken in simulatie kunnen oplossen. De huidige methode heeft zijn beperkingen maar de onderzoekers zien het als een stap in de richting van 'on the fly'-robotleren en -implementatie. Deze aanpak brengt ons dichter bij een toekomst waarin robots geen vooraf bestaand beleid nodig hebben dat elk scenario dekt. In plaats daarvan kunnen ze snel nieuwe taken leren zonder uitgebreide interactie in de echte wereld.

Foto: screenshot video CSAIL MIT