Robots richten op relevante objecten

Met een nieuwe methode kunnen robots snel een situatie in kaart brengen en items identificeren die ze nodig hebben om een reeks taken uit te voeren.

Stel u wilt uw rommelige keuken opruimen, beginnend met een aanrecht dat is bezaaid met sauszakjes. Als uw doel is om het aanrecht schoon te maken, zou u de zakjes als groep kunnen opvegen. Als je eerst de mosterdzakjes wilt uitkiezen voordat je de rest weggooit, zou je selectiever sorteren op saustype. En als u tussen de zakjes zocht naar Calvé of Remia, zou het vinden van dit specifieke merk een zorgvuldiger zoektocht vereisen. Ingenieurs van het Massachusetts Institute of Technology in Cambridge hebben een methode ontwikkeld waarmee robots vergelijkbare intuïtieve, taakrelevante beslissingen kunnen nemen.

Clio

Door de nieuwe aanpak van het team, genaamd Clio, kan een robot de delen van een scène te identificeren die ertoe doen, gegeven de taken die voorhanden zijn. Met Clio neemt een robot een lijst met taken op die in natuurlijke taal worden beschreven. Op basis van die taken bepaalt hij het niveau van granulariteit dat nodig is om zijn omgeving te interpreteren en alleen de delen van een scène te 'onthouden' die relevant zijn.

De onderzoekers verwachten dat Clio nuttig kan zijn in veel situaties en omgevingen waarin een robot snel zijn omgeving moet onderzoeken en begrijpen in de context van zijn gegeven taak. Zoeken en redden is de motiverende toepassing voor dit werk, maar Clio kan ook robots in huishoudens en op een fabrieksvloer naast mensen laten werken. Het gaat er om de robot te helpen de omgeving te begrijpen en wat hij moet onthouden om zijn missie uit te voeren.

Open sets

Door de vooruitgang op het gebied van computer vision en natuurlijke taalverwerking kunnen robots objecten in hun omgeving identificeren. Tot voor kort kon dit alleen in 'gesloten set' scenario's. Hier zijn ze geprogrammeerd om te werken in een zorgvuldig samengestelde en gecontroleerde omgeving, met een eindig aantal objecten dat de robot vooraf is getraind om te herkennen. De laatste jaren kiezen onderzoekers een meer 'open' benadering om robots objecten in meer realistische omgevingen te laten herkennen.

Op het gebied van open set herkenning hebben onderzoekers deep learning tools ingezet om neurale netwerken te bouwen. Deze kunnen miljarden afbeeldingen van internet verwerken, samen met de bijbehorende tekst van elke afbeelding. Een neuraal netwerk leert hier van, en identificeert vervolgens die segmenten in een scène die kenmerkend zijn voor bepaalde termen, zoals een hond. Een robot kan dat neurale netwerk vervolgens toepassen om een hond in een totaal nieuwe scène te spotten.

Maar het blijft een uitdaging om een scène te ontleden op een bruikbare manier die relevant is voor een bepaalde taak. Typische methoden kiezen een willekeurig, vast niveau van granulariteit om te bepalen hoe segmenten van een scène kunnen worden samengevoegd tot wat je kunt beschouwen als één 'object'. De granulariteit van wat je een ‘object’ noemt, is echter gerelateerd aan wat de robot moet doen. Als die granulariteit wordt vastgelegd zonder rekening te houden met de taken, kan de robot eindigen met een kaart die niet bruikbaar is voor zijn taken.

Informatieflessenhals

Met Clio wilde het MIT-team robots hun omgeving laten interpreteren met een mate van granulariteit die automatisch kan worden afgestemd op de taken die voorhanden zijn. Als de robot bijvoorbeeld een taak krijgt om een stapel boeken naar een plank te verplaatsen, zou hij moeten kunnen bepalen dat de hele stapel boeken het taakrelevante object is. Als de taak alleen groene boeken van de rest van de stapel zou verplaatsen, zou de robot groene boeken moeten onderscheiden als een enkel doelobject. Hij zou de rest van de scène moeten negeren, inclusief de andere boeken in de stapel.

De aanpak van het team combineert 'state of the art' computer vision en grote taalmodellen bestaande uit neurale netwerken die verbindingen maken tussen miljoenen open-source afbeeldingen en semantische tekst. Ze integreren ook mapping tools die een afbeelding automatisch opsplitsen in veel kleine segmenten, die in het neurale netwerk kunnen worden ingevoerd om te bepalen of bepaalde segmenten semantisch vergelijkbaar zijn.

De onderzoekers maken vervolgens gebruik van een idee uit de klassieke informatietheorie, de 'informatieflessenhals'. Ze gebruiken dit om een aantal beeldsegmenten te comprimeren op een manier die segmenten eruit pikt en opslaat die semantisch het meest relevant zijn voor een bepaalde taak.

Stel dat de robot alleen de groene boeken moet pakken. In dat geval duwen de onderzoekers deze informatie over de scène door deze flessenhals en eindigen ze met een cluster van segmenten die groene boeken vertegenwoordigen. Alle andere segmenten die niet relevant zijn, worden gegroepeerd in een cluster die eenvoudig is te verwijderen. De onderzoekers houden een object over met de juiste granulariteit die nodig is om de taak te ondersteunen.

De praktijk

De onderzoekers demonstreerden Clio in verschillende echte omgevingen. Ze dachten dat het een echt no-nonsense experiment zou zijn, zou om Clio te laten draaien in het appartement van een van de onderzoekers. Die had het tevoren niet schoongemaakt. Het team stelde een lijst op met taken in natuurlijke taal, zoals 'stapel kleren verplaatsen'. Clio paste die opdracht vervolgens toe op afbeeldingen van het rommelige appartement. Clio kon snel scènes van het appartement segmenteren en deze door de Informatieflessenhals algoritme te voeren om de segmenten te identificeren die de stapel kleren vormden.

De onderzoekers lieten Clio ook draaien op de viervoetige robot van Boston Dynamic, Spot. Ze gaven de robot een lijst met taken die hij moest voltooien. Terwijl de robot de binnenkant van een kantoorgebouw verkende en in kaart bracht, draaide Clio in real-time op een boordcomputer die aan Spot was bevestigd om segmenten in de in kaart gebrachte scènes te selecteren die visueel verband hielden met de gegeven taak. De methode genereerde een overlappende kaart met alleen de doelobjecten, die de robot vervolgens gebruikte om de geïdentificeerde objecten te benaderen en de taak fysiek te voltooien.

Vervolg

In de toekomst wil het team Clio aanpassen om taken op een hoger niveau aan te kunnen en voort te bouwen op recente ontwikkelingen in fotorealistische visuele scènerepresentaties. De onderzoekers geven Clio nog steeds taken die enigszins specifiek zijn, zoals 'vind een kaartspel. Maar voor zoeken en redden zijn meer taken op een hoger niveau nodig , zoals 'vind overlevenden' of 'zorg dat de stroom weer aangaat'. Ze willen dus een menselijker begrip krijgen van hoe ze complexere taken kunnen uitvoeren.

Foto: MIT