Eenvoudiger pad naar beter computer vision

Nieuw onderzoek onthult een schaalbare techniek die synthetische data gebruikt om de nauwkeurigheid van AI-modellen die afbeeldingen herkennen te verbeteren.

Voordat een machine learning model een taak zoals het identificeren van kanker in medische beelden kan voltooien, moet het model worden getraind. Het trainen van beeldclassificatiemodellen omvat meestal het ontwikkelen van het model met grote aantallen voorbeeldafbeeldingen, verzameld in een grote dataset.

Het gebruik van echte afbeeldingsdata kan praktische en ethische problemen opleveren. De afbeeldingen kunnen in strijd zijn met het auteursrecht, de privacy van mensen schenden of bevooroordeeld zijn tegen een bepaald ras of etnische groep. Om deze valkuilen te vermijden, kunnen onderzoekers programma's voor het genereren van afbeeldingen gebruiken om voor modeltraining synthetische data te creëren. Maar deze technieken zijn beperkt omdat er vaak deskundige kennis nodig is om handmatig een programma voor het genereren van afbeeldingen te ontwerpen dat effectieve trainingsgegevens kan creëren.

Andere aanpak

Onderzoekers van het Massachusetts Institute of Technology, het MIT-IBM Watson AI Lab en elders pakten het anders aan. In plaats van op maat gemaakte programma's voor het genereren van afbeeldingen te ontwerpen voor een bepaalde trainingstaak, verzamelden ze een dataset van 21.000 openbaar beschikbare programma's op internet.

Vervolgens gebruikten ze deze verzameling basisprogramma's voor het genereren van afbeeldingen om een computer vision model te trainen. Deze programma's produceren uiteenlopende afbeeldingen met eenvoudige kleuren en texturen. De onderzoekers hebben de programma's, die elk slechts een paar regels code bevatten, niet samengesteld of gewijzigd.

De modellen die ze trainden met deze dataset van programma's classificeerden afbeeldingen nauwkeuriger dan andere synthetisch getrainde modellen. Hun modellen presteerden slechter dan de modellen die waren getraind met echte data. Maar de onderzoekers toonden aan dat het vergroten van het aantal beeldprogramma's in de dataset ook de modelprestaties verhoogde, waardoor een weg naar hogere nauwkeurigheid werd onthuld.

Het gebruik van veel programma's die niet zijn samengesteld, blijkt beter dan het gebruik van een kleine set programma's die mensen moeten manipuleren. Data zijn belangrijk, maar de onderzoekers hebben laten zien dat ze vrij ver kunnen komen zonder echte data.

Voortraining heroverwegen

Modellen voor machine learning zijn meestal vooraf getraind. Ze worden eerst op één dataset getraind om de onwikkelaars te helpen parameters op te bouwen die kunnen worden gebruikt om een andere taak aan te pakken. Een model voor het classificeren van röntgenstralen kan vooraf worden getraind met behulp van een grote dataset van synthetisch gegenereerde beelden. Dit gebeurt voordat het wordt getraind voor zijn daadwerkelijke taak met behulp van een veel kleinere dataset van echte röntgenstralen.

De onderzoekers toonden eerder aan dat ze een handvol programma's voor het genereren van afbeeldingen konden gebruiken om synthetische data te creëren voor modelvoorbereiding. Maar deze programma's moesten zorgvuldig worden ontworpen zodat de synthetische afbeeldingen overeenkwamen met bepaalde eigenschappen van echte afbeeldingen. Dit maakte de techniek moeilijk op te schalen.

Verzameling opbouwen

In het nieuwe onderzoeken begonnen ze met het opbouwen van een verzameling van 21.000 programma's voor het genereren van afbeeldingen van internet. Alle programma's zijn geschreven in een eenvoudige programmeertaal en bevatten slechts enkele stukjes code, zodat ze snel afbeeldingen genereren. Deze programma's zijn ontworpen door ontwikkelaars over de hele wereld om afbeeldingen te produceren met enkele van de eigenschappen waarin de onderzoekers zijn geïnteresseerd. Ze produceren afbeeldingen die een beetje op abstracte kunst lijken.

Deze eenvoudige programma's kunnen zo snel draaien dat de onderzoekers vooraf geen afbeeldingen hoefden te maken om het model te trainen. Ze ontdekten dat ze beelden konden genereren en tegelijkertijd het model konden trainen, wat het proces stroomlijnde.

Ze gebruikten hun dataset van programma's voor het genereren van afbeeldingen om computer vision modellen voor te trainen voor zowel supervised als non-supervised beeldclassificatietaken. Bij supervised learning worden de beelddata gelabeld, terwijl bij non-supervised learning het model leert om afbeeldingen zonder labels te categoriseren.

Nauwkeurigheid verbeteren

De onderzoekers vergeleken hun voorgetrainde modellen met moderne computer vision modellen die vooraf waren getraind met behulp van synthetische data. De nieuwe modellen waren nauwkeuriger: ze plaatsten afbeeldingen vaker in de juiste categorieën. De nauwkeurigheidsniveaus waren nog steeds lager dan die van modellen die op echte data waren getraind. Maar hun techniek verkleinde de prestatiekloof tussen modellen die op echte data waren getraind en modellen die op synthetische data waren getraind met 38 procent.

De onderzoekers gebruikten elk individueel programma voor het genereren van afbeeldingen voor pre-training, in een poging factoren bloot te leggen die bijdragen aan de modelnauwkeurigheid. Ze ontdekten dat wanneer een programma een meer diverse set afbeeldingen genereert, het model beter presteert. Ze ontdekten ook dat kleurrijke afbeeldingen met scènes die het hele beeldvlak vullen, de modelprestaties het meest verbeteren.

Nu ze het succes van deze pre-trainingsaanpak hebben aangetoond, willen de onderzoekers hun techniek uitbreiden naar andere soorten data, zoals multimodale gegevens die tekst en afbeeldingen bevatten. Ze willen ook doorgaan met het onderzoeken van manieren om de prestaties van de beeldclassificatie te verbeteren. Er is nog steeds een gat te dichten met modellen die zijn getraind op echte gegevens. Dit geeft het onderzoek een richting waarvan de onderzoekers hopen dat anderen die zullen volgen.

De wetenschappelijke publicatie vindt u hier.

Foto: MIT