AI kan simuleren door foto's of video's

Met behulp van foto's of video's kunnen AI-systemen simulaties oproepen die robots trainen om te functioneren in fysieke ruimtes.

Onderzoekers die werken aan grote modellen voor kunstmatige intelligentie zoals ChatGPT hebben grote hoeveelheden tekst, foto's en video's op internet om systemen te trainen. Maar robotici die fysieke machines trainen, stuiten op barrières: robotgegevens zijn duur. Er zijn wereldwijd geen vloten robots; er zijn gewoonweg niet genoeg data gemakkelijk beschikbaar om robots goed te laten presteren in dynamische omgevingen, zoals in huizen van mensen.

Sommige onderzoekers zijn overgestapt op simulaties om robots te trainen. Maar zelfs dat proces, waar vaak een grafisch ontwerper of ingenieur bij betrokken is, is arbeidsintensief en kostbaar. Twee nieuwe onderzoeken aan de University of Washington in Seattle introduceren AI-systemen die video of foto's gebruiken. Hiermee maken ze simulaties die robots kunnen trainen om te functioneren in echte omgevingen. Dit zou de kosten van het trainen van robots om te functioneren in complexe omgevingen aanzienlijk kunnen verlagen.

Praktisch toepasbaar

Veel robots zijn geschikt om te werken in omgevingen zoals assemblagelijnen. Maar het blijft een uitdaging om ze te leren omgaan met mensen en in minder gestructureerde omgevingen. In een fabriek is er bijvoorbeeld veel herhaling. De taken zijn misschien moeilijk uit te voeren, maar eenmaal geprogrammeerd kan een robot de taak keer op keer blijven uitvoeren. Maar huizen zijn uniek en veranderen voortdurend. Er is een diversiteit aan objecten, taken, plattegronden en mensen die erdoorheen bewegen. Dit is waar AI echt nuttig wordt voor robotici.

De onderzoekers proberen systemen mogelijk te maken die goedkoop van de echte wereld naar simulatie gaan. Deze systemen kunnen robots trainen in die simulatiescènes, zodat een robot effectiever kan functioneren in een fysieke ruimte. Dat is handig voor de veiligheid; mensen willen geen slecht getrainde robots hebben die dingen kapotmaken en hen verwonden. Ook vergroot zo'n systeem mogelijk de toegang. Als je een robot in je huis kunt laten werken door hem met je telefoon te scannen, democratiseert dat de technologie.

In het eerste onderzoek scant een gebruiker snel een ruimte met een smartphone om de geometrie ervan vast te leggen. Het systeem, RialTo genaamd, kan vervolgens een digitale tweeling van de ruimte maken, waarin de gebruiker kan invoeren hoe verschillende dingen functioneren (bijvoorbeeld een lade openen). Een robot kan vervolgens virtueel bewegingen in de simulatie herhalen met kleine variaties om te leren ze effectief uit te voeren. In de tweede studie bouwde het team een systeem, URDFormer genaamd, dat afbeeldingen van echte omgevingen van internet haalt en snel fysiek realistische simulatieomgevingen creëert waarin robots kunnen trainen. De twee systemen pakken deze uitdagingen op verschillende manieren aan.

Rialto

RialTo is gecreëerd in samenwerking met het Massachusetts Institute of Technology in Cambridge. Dit systeem laat iemand door een omgeving lopen en video's maken van de geometrie en bewegende onderdelen. In een keuken openen ze bijvoorbeeld kasten, de broodrooster en de koelkast. Het systeem gebruikt vervolgens bestaande AI-modellen om een gesimuleerde versie van de keuken te maken die in de video wordt getoond. Een mens doet hiertoe wat werk via een grafische gebruikersinterface om te laten zien hoe dingen bewegen.

De virtuele robot traint zichzelf door vallen en opstaan in de gesimuleerde omgeving. Hij voert herhaaldelijk taken uit zoals het openen van die broodrooster, een methode die reinforcement learning wordt genoemd. Door dit proces in de simulatie te doorlopen, verbetert de robot die taak. Hij werkt om verstoringen of veranderingen in de omgeving heen, zoals een mok die naast de broodrooster wordt geplaatst. De robot kan die kennis vervolgens overbrengen naar de fysieke omgeving, waar het bijna net zo nauwkeurig is als een robot die in de echte keuken is getraind.

URDFormer

Het tweede systeem, URDFormer, is minder gericht op relatief hoge nauwkeurigheid in één keuken. in plaats daarvan roept het snel en goedkoop honderden generieke keukensimulaties op. URDFormer scant afbeeldingen van internet en koppelt ze aan bestaande modellen van hoe bijvoorbeeld die keukenlades en -kasten waarschijnlijk zullen bewegen. Vervolgens voorspelt het een simulatie op basis van de eerste afbeelding uit de echte wereld, waardoor onderzoekers snel en goedkoop robots kunnen trainen in een groot aantal omgevingen. Het nadeel is dat deze simulaties aanzienlijk minder nauwkeurig zijn dan de simulaties die RialTo genereert.

De twee benaderingen kunnen elkaar aanvullen. URDFormer is handig voor het vooraf trainen van honderden scenario's. RialTo is handig als een robot al is voorgetraind en in iemands huis moet worden geïmplementeerd. Dan kan hij misschien voor 95% succesvol zijn.

In de toekomst wil het RialTo-team het systeem in de huizen van mensen implementeren (het is grotendeels getest in een laboratorium). De onderzoekers willen kleine hoeveelheden trainingsgegevens uit de echte wereld wil opnemen in de systemen om hun slagingspercentages te verbeteren. Hopelijk kan data uit de echte wereld de fouten oplossen. Maar de ontwikkelaars moeten nog steeds uitzoeken hoe ze data die rechtstreeks in de echte wereld zijn verzameld (wat duur is) het beste kunnen combineren met data uit simulaties. Deze zijn goedkoop maar kloppen niet helemaal.

Foto: Chen et al./RSS 2024