Zijn synthetische data beter dan echte data?

Uit onderzoek blijkt dat synthetische data bij machine learning prestatieverbeteringen kunnen bieden ten opzichte van echte data.

Een machine leren om menselijke handelingen te herkennen, heeft veel potentiële toepassingen, zoals het automatisch detecteren van werknemers die vallen op een bouwplaats of het inschakelen van een slimme (huis)robot om de gebaren van een gebruiker te interpreteren.

Om dit te doen, trainen onderzoekers modellen voor machine learning met behulp van enorme datasets van videoclips die mensen laten zien die acties uitvoeren. Het is echter niet alleen duur en arbeidsintensief om miljoenen of miljarden video's te verzamelen en te labelen. De clips bevatten ook vaak gevoelige informatie, zoals gezichten van mensen of kentekenplaten. Het gebruik van deze video's kan in strijd zijn met copyright- of gegevensbeschermingswetten.

Amerikaanse onderzoekers wendden zich tot synthetische datasets. Deze worden gemaakt door een computer die 3D-modellen van scènes, objecten en mensen (foto) gebruikt om snel veel verschillende clips van specifieke acties te produceren. Dat is mogelijk zonder potentiële auteursrechtproblemen of ethische problemen die gepaard gaan met echte data.

Synthetisch of echt?

Maar goed presteert een model dat met synthetische data is getraind wanneer het wordt gevraagd om echt menselijk handelen te classificeren? Een team onderzoekers van het Massachusetts Institute of Technology, het MIT-IBM Watson AI Lab en Boston University probeerde deze vraag te beantwoorden. Ze bouwden een synthetische dataset van 150.000 videoclips die een breed scala aan menselijke acties vastlegden en gebruikten due om machine learning modellen te trainen. Vervolgens lieten ze deze modellen zes datasets van video's uit de echte wereld zien om te zien hoe goed ze acties in die clips konden leren herkennen.

De synthetisch getrainde modellen presteerden beter dan modellen die waren getraind op echte gegevens voor video's met minder achtergrondobjecten. Dit zou onderzoekers kunnen helpen om synthetische datasets zodanig te gebruiken dat modellen een hogere nauwkeurigheid bereiken bij taken in de echte wereld. Het kan wetenschappers ook helpen te identificeren welke machine learning toepassingen het meest geschikt zijn voor training met synthetische gegevens, dit om ethische, privacy- en auteursrechtelijke problemen bij het gebruik van echte datasets weg te nemen.

Het maken van een actie in synthetische data kost geld. Maar daarna kan de gebruiker een onbeperkt aantal afbeeldingen of video's genereren door de pose, de belichting, enzovoorts te veranderen.

Datasets bouwen

De onderzoekers begonnen met het samenstellen van een nieuwe dataset met behulp van drie openbaar beschikbare datasets van synthetische videoclips die menselijke acties vastlegden. Hun dataset, genaamd Synthetic Action Pre-training and Transfer (SynAPT), bevatte 150 actiecategorieën, met duizend videoclips per categorie. Ze selecteerden zoveel mogelijk actiecategorieën, zoals mensen die zwaaien of op de grond vallen, afhankelijk van de beschikbaarheid van clips met schone videogegevens.

Nadat de dataset was voorbereid, gebruikten ze deze om drie machine learning modellen voor pre-training om de acties te herkennen. Pre-training houdt in dat een model voor één taak wordt getraind om het een voorsprong te geven bij het leren van andere taken. Geïnspireerd door de manier waarop mensen leren – we hergebruiken oude kennis wanneer we iets nieuws leren – kan het voorgetrainde model de parameters gebruiken die het al heeft geleerd om het sneller en effectiever een nieuwe taak met een nieuwe dataset te leren.

De onderzoekers testten de vooraf getrainde modellen met behulp van zes datasets van echte videoclips, die elk klassen van acties vastlegden die anders waren dan die in de trainingsgegevens. Alle drie synthetische modellen presteerden beter dan modellen die waren getraind met echte videoclips op vier van de zes datasets. Hun nauwkeurigheid was het hoogst voor datasets die videoclips bevatten met 'lage scene-object bias'.

Lage scene-object bias betekent dat het model de actie niet kan herkennen door naar de achtergrond of andere objecten in de scene te kijken: het moet zich concentreren op de actie zelf. In video's met een lage scene-objectbias is de temporele dynamiek van de acties belangrijker dan het uiterlijk van de objecten of de achtergrond. Dat lijkt goed te worden vastgelegd met synthetische data. Hoge scene-object bias kan als obstakel fungeren. Het model kan een actie verkeerd classificeren door naar een object te kijken, niet naar de actie zelf.

Prestaties verbeteren

Voortbouwend op deze resultaten willen de onderzoekers meer actieklassen en extra synthetische videoplatforms opnemen in toekomstig werk, en uiteindelijk een catalogus creëren van modellen die vooraf zijn getraind met synthetische gegevens. Ze willen modellen bouwen met vergelijkbare prestaties of zelfs betere prestaties dan de bestaande modellen in de literatuur, maar zonder gebonden te zijn aan vooroordelen of beveiligingsproblemen.

Ze willen hun werk ook combineren met onderzoek dat gericht is op het genereren van nauwkeurigere en realistischere synthetische video's, wat de prestaties van de modellen zou kunnen verbeteren. De onderzoekers zijn ook geïnteresseerd in het onderzoeken hoe modellen anders kunnen leren wanneer ze worden getraind met synthetische gegevens. Maar leert het model dan iets dat onbevooroordeeld is?.

Ill.: MIT