Met behulp van reinforcement learning kunnen robots leren om zelfstandig taken uit te voeren. Maar het duurt even.
Als kinderen leren fietsen, kunnen volwassenen ze alleen naar een bepaald punt begeleiden. Een groot deel van de ontwikkeling van deze nieuwe vaardigheid is afhankelijk van onafhankelijk vallen en opstaan van het kind.
Na oefening en misschien een val of twee, leren kinderen uiteindelijk hoe ze zichzelf in evenwicht kunnen houden, obstakels kunnen omzeilen en weloverwogen beslissingen kunnen nemen over hun volgende fietspad. De volwassenen kunnen ze dan met vertrouwen op pad sturen, wetende dat hun kind zich met de tijd voortdurend zal ontwikkelen en verbeteren.
Onderzoekers van het Carnegie Mellon University Robotics Institute in Pittsburgh proberen een baanbrekende vraag te beantwoorden: kunnen robots op een vergelijkbare manier zelfstandig taken leren? Om dit onderzoek te onderzoeken, bundelden onderzoekers de krachten met onderzoekers van het Boston Dynamics AI Institute.
In het merendeel van het huidige onderzoek kopiëren robots gedragingen of reageren ze op door mensen gemaakte gesimuleerde omgevingen om te leren en taken uit te voeren. Dit is niet vergelijkbaar met hoe mensen het grootste deel van de tijd leren. De onderzoekers wilden daarom een raamwerk ontwerpen om de unieke 'trials and errors; van menselijk leren te imiteren.
Het team richtte zich op drie belangrijke strategieën om een reinforcement learning systeem te creëren voor mobiele robots die kunnen leren met minimale menselijke tussenkomst:
De onderzoekers gebruikten een vierbenige robot (Spot) voor hun experiment. Ze ontwierpen vier manipulatietaken om het raamwerk te testen:
Met behulp van een camerasysteem om de taken te observeren, kon het team zien hoe goed de robot reageerde op het geïntegreerde beloningssysteem en zijn gedrag dienovereenkomstig aanpassen.
Net zoals kinderen leren fietsen, oefende de robot elke taak acht tot tien uur per keer. De viervoeter verbeterde voortdurend in de nauwkeurigheid van het voltooiing en efficiëntie van de taak naarmate deze tijd vorderde. Over het geheel genomen vertoonde het reinforcement learning framework een gemiddeld succespercentage van 80%, wat de huidige RL-benaderingen aanzienlijk overtrof in zijn prestaties.
Het reinforcement learning framework van het onderzoeksteam toont aan dat robots hun prestaties in de loop van de tijd onafhankelijk kunnen verbeteren, net zoals kinderen een nieuwe vaardigheid onder de knie krijgen. Deze voortdurende verbetering is een veelbelovende ontwikkeling. Het benadrukt de potentie voor toekomstige robotsystemen om te worden ingezet in scenario's in de echte wereld waar menselijk toezicht beperkt is.
Hoewel de huidige experimenten plaatsvinden in een gecontroleerde omgeving, biedt de aanpak een praktisch pad om de veiligheid en efficiëntie van robots in meerdere dynamische omgevingen in de toekomst te verbeteren.
Meer informatie vindt u op de projectwebsite.
Foto: Carnegie Mellon University