Nieuw algoritme zorgt voor betere prestaties

Door robots te helpen snel en betrouwbaar complexe vaardigheden te leren, presteert een nieuw AI-platform consequent beter dan andere systemen.

Wetenschappers aan de Northwestern University in Evanston (bij Chicago) hebben een nieuw algoritme voor kunstmatige intelligentie (AI) ontwikkeld, speciaal voor slimme robotica. Door robots te helpen snel en betrouwbaar complexe vaardigheden te leren, zou de nieuwe methode aanzienlijk kunnen verbeteren. Dit geldt voor de bruikbaarheid (en veiligheid) van robots voor een reeks toepassingen, waaronder zelfrijdende auto's, bezorgdrones, huishoudhulpen en automatisering,.

AI niet onfeilbaar

Het algoritme, genaamd Maximum Diffusion Reinforcement Learning (MaxDiff RL), kan robots 'aanmoedigen' hun omgeving zo willekeurig mogelijk te verkennen om zo een gevarieerde reeks ervaringen op te doen. Deze 'ontworpen willekeur' verbetert de kwaliteit van de data die robots verzamelen over hun eigen omgeving. Door data van hogere kwaliteit te gebruiken, konden gesimuleerde robots sneller en efficiënter leren 'zien', waardoor hun algehele betrouwbaarheid en prestaties verbeterden.

Bij tests met andere AI-platforms presteerden gesimuleerde robots die het nieuwe algoritme van Northwestern gebruikten consequent beter dan de modernste modellen. Het nieuwe algoritme werkt zo goed dat robots nieuwe taken leerden en deze vervolgens met succes in één enkele poging uitvoerden – en het in één keer goed deden. Dit staat in schril contrast met de huidige AI-modellen, die langzamer leren door vallen en opstaan.

Andere AI-frameworks kunnen enigszins onbetrouwbaar zijn, aldus de onderzoekers. Soms zullen ze een taak helemaal volbrengen, maar andere keren zullen ze volledig mislukken. Met het nieuwe raamwerk kan de gebruiker elke keer dat hij de robot aanzet, verwachten dat hij precies doet wat hem wordt gevraagd. Tenminste, zolang de robot überhaupt in staat is om die taak uit te voeren. Dit maakt het gemakkelijker om de successen en mislukkingen van robots te interpreteren, wat cruciaal is in een wereld die steeds afhankelijker wordt van AI.

Onstoffelijke ontkoppeling

Om machine learning algoritmen te trainen, gebruiken onderzoekers en ontwikkelaars grote hoeveelheden big data, die mensen zorgvuldig filteren en beheren. AI leert van deze trainingsgegevens, met vallen en opstaan, totdat optimale resultaten worden bereikt. Dit proces werkt goed voor niet-belichaamde systemen, zoals ChatGPT en Google Gemini (voorheen Bard), maar niet voor belichaamde systemen zoals robots. Robots verzamelen in plaats daarvan zelf gegevens – zonder de tussenkomst van menselijke curatoren.

Traditionele algoritmen zijn op twee verschillende manieren niet compatibel met robotica. Ten eerste kunnen onstoffelijke systemen profiteren van een wereld waarin fysieke wetten niet van toepassing zijn. Ten tweede hebben individuele mislukkingen geen gevolgen. Voor computerwetenschappelijke toepassingen is het enige dat telt, dat het meestal lukt. In de robotica kan één mislukking catastrofaal zijn.

Om deze kloof op te lossen, wilden de onderzoekers een nieuw algoritme ontwikkelen dat ervoor zorgt dat robots onderweg gegevens van hoge kwaliteit kunnen verzamelen. In de kern geeft MaxDiff RL robots de opdracht om willekeuriger te bewegen om grondige, diverse gegevens over hun omgevingen te verzamelen. Door te leren via zelf samengestelde willekeurige ervaringen verwerven robots de nodige vaardigheden om nuttige taken uit te voeren.

Eerste keer goed

Om het nieuwe algoritme te testen, vergeleken de onderzoekers het met huidige, state-of-the-art modellen. Met behulp van computersimulaties lieten de onderzoekers gesimuleerde robots een reeks standaardtaken uitvoeren. Over de hele linie leerden robots die MaxDiff RL gebruikten sneller dan de andere modellen. Ze voerden taken ook veel consistenter en betrouwbaarder uit dan anderen.

Misschien nog indrukwekkender: robots die de MaxDiff RL-methode gebruiken, slagen er vaak in om een taak in één keer correct uit te voeren. En dat zelfs toen ze begonnen zonder enige kennis. De robots waren sneller en wendbaarder –ze konden hetgeen ze leerden effectief generaliseren en toepassen op nieuwe situaties. Voor toepassingen in de echte wereld waar robots zich geen eindeloze tijd voor vallen en opstaan kunnen veroorloven, is dit een groot voordeel. De onderzoekers hebben hun nieuwe algoritme alleen op gesimuleerde robots hebben getest, maar hebben NoodleBot (foto) gebouwd voor toekomstige tests in de echte wereld.

Algemeen algoritme

Omdat MaxDiff RL een algemeen algoritme is, kan het voor verschillende toepassingen worden gebruikt. De onderzoekers hopen dat het fundamentele problemen aanpakt die het veld tegenhouden en uiteindelijk de weg vrijmaakt voor betrouwbare besluitvorming op het gebied van slimme robotica.

Het hoeft niet alleen te worden gebruikt voor robotvoertuigen die rondrijden. Het zou ook kunnen worden gebruikt voor stationaire robots, zoals een robotarm in een keuken die leert hoe de vaatwasser moet worden gevuld. Naarmate taken en fysieke omgevingen ingewikkelder worden, wordt de rol van belichaming nog belangrijker om te overwegen tijdens het leerproces. Het nieuwe algoritme is een belangrijke stap in de richting van echte systemen die ingewikkeldere, interessantere taken uitvoeren.

De wetenschappelijke publicatie vindt u hier.

Foto: Northwestern University