Nieuwe hond leert oude trucs met AI

Nieuwe aanpak levert 'atletisch intelligente' robothond op die nieuwe kunstjes kan leren.

AI-onderzoekers creëerden een echte ‘robodog’ die als nooit tevoren kan springen, klimmen, kruipen en zich langs fysieke barrières kan wurmen. Dat deden de onderzoekers aan Stanford University (50 km zuidoosts van San Fransisco) en het Shanghai Qi Zhi Institute met een vereenvoudigde machine learning-techniek.

Uitdagingen

Wanneer aardbevingen, branden en overstromingen toeslaan, kunnen robotachtige reddingshonden de eerste eerstehulpverleners zijn die naar binnen snellen om slachtoffers te helpen. De viervoeters op batterijen gebruiken computer vision om obstakels in kaart te brengen en gebruiken hondachtige behendigheidsvaardigheden om er te komen.

Om dat nobele doel te bereiken hebben de onderzoekers in Stanford en Shanghai een nieuw, op visie gebaseerd algoritme ontwikkeld. Het helpt robodogs hoge objecten te beklimmen, over gaten te springen, onder drempels te kruipen en zich door spleten te wurmen – en vervolgens naar de grond te rennen. Het algoritme vertegenwoordigt de hersenen van de robodog.

De autonomie en het scala aan complexe vaardigheden die de viervoetige robot heeft geleerd, zijn volgens de onderzoekers 'behoorlijk indrukwekkend'. Het team heeft dat gepresenteerd met behulp van (relatief) goedkope, kant-en-klare robots – eigenlijk twee verschillende kant-en-klare robots.

De belangrijkste vooruitgang is volgens de wetenschappers dat hun robodog autonoom is. Hij kan zelfstandig fysieke uitdagingen inschatten, zich een breed scala aan behendigheidsvaardigheden voorstellen en die vervolgens uitvoeren, Dat is gebaseerd op de obstakels die hij voor zich ziet. De onderzoekers combineren perceptie en besturing door gebruik te maken van beelden van een dieptecamera die op de robot is gemonteerd. Via machine learning verwerkt hij alle input en beweegt de poten om over, onder en rond obstakels te komen.

Vereenvoudigen om te optimaliseren

Hun robothond is niet de eerste die zulke behendigheid demonstreert – een atletiekklasse die bekend staat als 'parkour'. Maar volgens de ontwikkelaars is het wel de eerste die autonomie combineert met een breed scala aan vaardigheden. De robots hebben zowel visie als autonomie. Ze hebben daarmee de atletische intelligentie om een uitdaging aan te gaan en om zelf parkourvaardigheden te selecteren en uit te voeren op basis van de eisen van het moment.

Bestaande leermethoden zijn vaak gebaseerd op complexe beloningssystemen die moeten worden afgestemd op specifieke fysieke obstakels. Dienovereenkomstig schalen ze niet goed naar nieuwe of onbekende omgevingen. Andere gerelateerde benaderingen leren gebruik te maken van data uit de echte wereld om de behendigheidsvaardigheden van andere dieren te imiteren. Deze robodogs beschikken niet een breed scala aan vaardigheden en de vision mogelijkheden van de nieuwe robodogs. Beide bestaande methoden zijn ook qua rekenkracht vrij traag.

Reinforcement learning

Om te slagen, synthetiseerden en verfijnden de wetenschappers eerst het algoritme met behulp van een computermodel en brachten het vervolgens over naar twee echte robodogs. Vervolgens probeerden de robots in een proces van reinforcement learning vooruit te komen op elke manier die zij nodig achtten en werden beloond op basis van hoe goed ze het deden. Zo leert het algoritme uiteindelijk hoe het een nieuwe uitdaging het beste kan aanpakken. Volgens de auteurs is dit de eerste open source-applicatie die deze doelen bereikt met een eenvoudig beloningssysteem zonder referentiedata uit de echte wereld.

In de praktijk omvatten de meeste bestaande beloningssystemen voor reinforcement learning te veel variabelen om effectief te zijn, waardoor de rekenprestaties worden vertraagd. Dit maakt het gestroomlijnde beloningsproces voor robodog-parkour uitzonderlijk, maar ook verrassend eenvoudig. De onderzoekers hebben het algoritme vooral gebaseerd op hoe ver de robot vooruit beweegt en de hoeveelheid moeite die hij daarvoor heeft gedaan. Uiteindelijk leert de robot complexere motorische vaardigheden waardoor hij vooruit kan komen.

Tests in de echte wereld

Het team voerde uitgebreide experimenten uit met echte robodogs om hun nieuwe behendigheidsaanpak in uitdagende omgevingen te demonstreren. Daarbij werd alleen gebruik gemaakt van kant-en-klare computers, vision-sensoren en energiesystemen van de robodogs. De nieuwe en verbeterde robodogs konden obstakels beklimmen die meer dan anderhalf keer zo groot waren. Ze maakten sprongen die groter waren dan anderhalf keer hun lengte en kropen onder barrières kruipen die driekwart van hun eigen hoogte waren. En ze kantelen zichzelf om door een ruimte te dringen die smaller is dan hun breedte.

Het team hoopt de vooruitgang op het gebied van 3D-vision en grafische afbeeldingen te kunnen benutten om gegevens uit de echte wereld aan de gesimuleerde omgevingen toe te voegen. Aldus willen ze hun algoritme een nieuw niveau van autonomie in de echte wereld geven.

Foto: Shanghai Qi Zhi Institute/Stanford University