Robot voetbalt op verschillende bodems

DribbleBot kan een voetbal manoeuvreren op verschillende ondergronden en kan zich met reinforcement learning aanpassen aan verschillende baldynamieken.

Onderzoekers van het Improbable Artificial Intelligence Lab van het Massachustts Institute of Technology, hebben een robotsysteem ontwikkeld dat kan dribbelen onder dezelfde omstandigheden als mensen. De vierpotige robot heeft nog lang niet de vaardigheden van Lionel Messi, maar heeft toch een leuke dribbel in huis.

De robot gebruikt een combinatie van ingebouwde detectie en computers om verschillende natuurlijke terreinen zoals zand, grind, modder en sneeuw te doorkruisen. Hiermee kan hij zich aanpassen aan de gevarieerde impact op de beweging van de bal. Zo kon DribbleBot opstaan en de bal terughalen na een val.

Voetballende robot

Het programmeren van robots om te voetballen is al geruime tijd een actief onderzoeksgebied. Vraag maar aan de TU Eindhoven. Het team wilde echter automatisch leren hoe de benen te bedienen tijdens het dribbelen. Ze wilden moeilijk te beschrijven vaardigheden mogelijk maken voor het reageren op verschillende terreinen.

Hier komt simulatie om de hoek kijken. Robot, bal en terrein bevinden zich daarbij in een digitale tweeling van de natuurlijke wereld. De robot en andere activa zijn te laden en natuurkundige parameters in te stellen. Vervolgens wordt de voorwaartse simulatie van de dynamiek afgehandeld. Vierduizend versies van de robot worden parallel in real-time gesimuleerd, waardoor gegevensverzameling vierduizend keer sneller is dan met slechts één robot.

De robot begint zonder te weten hoe hij met de bal moet dribbelen. Hij krijgt alleen een 'beloning' als hij dat doet, of een negatieve beoordeling als hij het verprutst. Hij probeert dus uit te vinden welke volgorde van krachten hij met zijn benen moet uitoefenen. Een aspect van deze benadering van reinforcement learning is, dat de onderzoekers een goede beloning moeten ontwerpen om de robot te helpen succesvol dribbelgedrag te leren. Als die beloning eenmaal is ontworpen, moet de robot oefenen. Na verloop van tijd leert hij steeds beter te worden in het manipuleren van de voetbal overeenkomen met de gewenste snelheid.

Toepassingen

De robot kon door onbekende terreinen navigeren en herstellen van een val dankzij een herstelcontroller die het team in zijn systeem had ingebouwd. Hiermee kan de robot na een val opstaan en terugschakelen naar zijn dribbelcontroller om achter de bal aan te blijven rennen.

De meeste mobiele robots rijden op wielen. Maar om mensen te helpen bij zoek- en reddingsacties zijn machines nodig die over terrein kunnen gaan dat niet vlak is. Robots op wielen kunnen puinhopen niet doorzoeken. Het doel van robots met poten is om terreinen te verkennen die buiten het bereik van de huidige robotsystemen liggen. Het doel bij het ontwikkelen van algoritmen voor deze robots is om autonomie te bieden op uitdagende en complexe terreinen die momenteel buiten het bereik van robotsystemen liggen.

Hardware

De robot is voorzien van een reeks sensoren waarmee hij de omgeving kan waarnemen. Hiermee kan hij 'voelen' waar hij is, kan hij zijn positie 'begrijpen' en een deel van zijn omgeving 'zien'. Hij heeft een set actuatoren waarmee hij krachten kan uitoefenen en zichzelf en objecten kan verplaatsen. Tussen de sensoren en actuatoren zit een computer die sensorgegevens omzet in acties, die hij via de motoren zal toepassen. Wanneer de robot op sneeuw rijdt, ziet hij de sneeuw niet, maar voelt hij hem door zijn motorsensoren.

Voetballen is lastiger dan lopen, daarom gebruikte het team camera's op het hoofd en lichaam van de robot voor een nieuwe sensorische modaliteit van zien. De robot kan hiermee de wijde wereld in omdat hij sensoren, camera's en rekenkracht aan boord heeft. Dat vereiste enkele innovaties om de hele controller op deze ingebouwde computer te laten passen. Het is een gebied waar learning-technieken helpen. De onderzoekers kunnen een lichtgewicht neuraal netwerk runnen en dit trainen om sensorgegevens van de bewegende robot te verwerken.

Vervolg

Er is nog een lange weg te gaan om deze robots net zo wendbaar te maken als hun menselijke tegenhangers. Sommige terreinen waren een uitdaging voor DribbleBot. Momenteel is de controller niet getraind in gesimuleerde omgevingen met hellingen of trappen. De robot neemt de geometrie van het terrein niet waar; het schat alleen contacteigenschappen zoals wrijving in. Als bijvoorbeeld een trede hoger is, komt de robot vast te zitten. Hij zal de bal niet over de trede kunnen tillen. Dit gebied wil het team in de toekomst verkennen.

De onderzoekers willen om de lessen die tijdens de ontwikkeling van DribbleBot zijn geleerd, toepassen op andere taken waarbij gecombineerde voortbeweging en objectmanipulatie betrokken zijn. Daarbij worden verschillende objecten snel van de ene plaats naar de andere getransporteerd met behulp van de benen of armen.

Foto: Mike Grimmett/MIT CSAIL