Nieuwe AI-methode maakt 3D model uit 2D foto's

Nieuwe techniek maakt het mogelijk van 2D afbeeldingen 3D modellen te maken.

Onderzoekers van de North Carolina State University in Raleigh hebben een nieuwe techniek ontwikkeld, MonoCon, die het vermogen van programma's voor kunstmatige intelligentie (AI) verbetert om driedimensionale (3D) objecten te identificeren. De technologie verbetert ook hoe die objecten zich in de ruimte tot elkaar verhouden, met behulp van tweedimensionale (2D) beelden. Het werk kan bijvoorbeeld helpen om de AI die wordt gebruikt in autonome voertuigen te navigeren. Dit doen ze dan in relatie tot andere voertuigen en met behulp van de 2D-beelden die het ontvangt van een ingebouwde camera.

Van lidar naar camera

Het werk kan belangrijk zijn voor autonome voertuigen, maar heeft ook toepassingen voor productie en robotica. In de context van autonome voertuigen vertrouwen de meeste bestaande systemen op lidar om door de 3D-ruimte te navigeren. Maar deze technologie is echter duur en daarom bevatten autonome systemen niet veel redundantie.

Als een autonoom voertuig visuele input zou kunnen gebruiken om door de ruimte te navigeren, is redundantie in te bouwen. Camera's zijn aanzienlijk goedkoper dan lidar. Het zou economisch haalbaar zijn om extra camera's op te nemen, waardoor een systeem redundant, veiliger en robuuster. De onderzoekers zijn echter ook enthousiast over de fundamentele vooruitgang van dit werk: dat het mogelijk is om 3D-gegevens van 2D-objecten te krijgen.”

MonoCon

MonoCon kan 3D-objecten in 2D-beelden identificeren en in een 'bounding box' te plaatsen, die de AI effectief de buitenste randen van het betreffende object vertelt. Het systeem bouwt voort veel bestaand werk om AI-programma's te helpen 3D-gegevens uit 2D-beelden te extraheren. Veel van deze onderzoeken trainen de AI door deze 2D-afbeeldingen te voor te leggen en 3D-begrenzingskaders rond objecten in de afbeelding te plaatsen.

Tijdens de training krijgt de AI 3D-coördinaten voor elk van de acht hoeken van de doos. De AI bepaalt daaruit de hoogte, breedte en lengte van de begrenzingsdoos en de afstand tussen elk van die hoeken en de camera. Door de AI te ‘corrigeren’ kan deze in de loop van de tijd steeds beter worden in het identificeren van objecten, ze in een selectiekader plaatsen en de afmetingen van de objecten schatten.

Net als bij eerdere onderzoeken plaatsen de onderzoekers objecten in 3D-begrenzingsvakken terwijl ze de AI trainen. Ze vragen niet alleen om afstanden en afmetingen te voorspellen, maar ook de locaties van elk van de acht punten van de doos. De wetenschappers ontdekten dat het de AI helpt om 3D-objecten nauwkeuriger te identificeren en te voorspellen op basis van 2D-beelden. De onderzoekers testten MonoCon met behulp van een veelgebruikte benchmark-dataset, genaamd KITTI.

Verder onderzoek

Volgens de onderzoekers presteerde MonoCon beter dan tientallen andere AI-programma's die gericht waren op het extraheren van 3D-gegevens over auto's uit 2D-beeldenHet algoritme presteerde goed bij het identificeren van voetgangers en fietsen, maar was niet het beste AI-programma bij die identificatietaken. In de toekomst werken de onderzoekers met grotere datasets om MonoCon te evalueren en af te stemmen voor gebruik in autonoom rijden. Ze willen ook toepassingen in de productie onderzoeken, om te zien of ze de uitvoering van taken zoals het gebruik van robotarmen kunnen verbeteren.

Klein detail: het onderzoek is verricht in North Carolina, de foto is gemaakt in ……. Karlsruhe.

Foto: North Carolina State University