Oprettelse af et syntetisk hundedatasæt i GTA-V til 3D-modeller

Et team af forskere fra University of Surrey har udviklet en revolutionerende metode til at omdanne fotografier af hunde til detaljerede 3D-modeller.

Omdannelse af hundebilleder til 3D-modeller

Forskere forsøgte at træne et kunstig intelligenssystem til at fortolke og konvertere 2D-billeder af hunde til deres 3D-stillinger.

Træningsmaterialet? Ikke rigtige hunde, men snarere computergenererede billeder fra den virtuelle verden af ​​GTA V.

Modeltræning med CGI-hunde

Moira Shooter, en postgraduat forskningsstuderende involveret i undersøgelsen, delte: “Vores model blev trænet på hunde i CGI – men vi var i stand til at bruge den til at skabe 3D skeletmodeller ud fra fotografier af hunde. rigtige dyr. Dette kunne give biologer mulighed for at spotte skadet dyreliv eller hjælpe kunstnere med at skabe mere realistiske dyr i metaversen.”

Traditionelle metoder til at lære AI om 3D-strukturer involverer brug af rigtige fotos sammen med data om de faktiske 3D-positioner af objekter, ofte opnået gennem motion capture-teknologi.

Oprettelse af en database over virtuelle hundebevægelser

Men når det kommer til at anvende disse teknikker til hunde, er der simpelthen for mange bevægelser at gå igennem.

For at bygge deres hundedatasæt modificerede forskerne GTA V’s kode for at erstatte dens menneskelige karakterer med hundeavatarer gennem en proces kendt som “modding”.

Dette gjorde det muligt for dem at producere 118 videoer, der fangede disse virtuelle hunde, der udfører forskellige handlinger – siddende, gående, gøen og løb – under forskellige miljøforhold.

Brug af Metas DINOv2 AI-model

De næste trin brugte Metas DINOv2 AI-model for dens stærke generaliseringsevner, og raffinerede den med DigiDogs til præcist at forudsige 3D-positurer fra enkeltvisnings-RGB-billeder.

Forskere viste, at brugen af ​​DigiDogs-datasættet til træning resulterede i mere nøjagtige og realistiske 3D-hundestillinger end dem, der blev trænet på datasæt fra den virkelige verden, takket være de mange forskellige optrædener og hundehandlinger, der blev fanget.

Resultater og mulige anvendelser

Modeller trænet på DigiDogs syntetiske datasæt viste forbedret nøjagtighed sammenlignet med dem der kun blev trænet på det virkelige RGBD-Dogs datasæt.

Resultaterne overgik eksisterende metoder ved at give detaljerede 3D-resultater og sætte et nyt benchmark med hensyn til realisme og nøjagtighed for 3D-hundestillingerestimering fra 2D-billeder, bekræftet af kvalitative og kvantitative evalueringer i dybden.

Selvom denne undersøgelse repræsenterede et stort skridt fremad inden for 3D-dyremodellering, erkender holdet, at der stadig er arbejde at gøre, især for at forbedre, hvordan modellen forudsiger dybdeaspektet af billeder (koordinaten z).

Shooter beskrev den potentielle effekt af deres arbejde og sagde: “3D-positurer indeholder så meget mere information end 2D-fotografier. Fra økologi til animation, denne smarte løsning har så mange anvendelsesmuligheder.”

Papiret vandt prisen for bedste papir på IEEE/CVF Winter Conference on Computer Vision Applications, men lover også mange applikationer, fra bevarelse af dyreliv til gengivelse af digitale 3D-objekter i virtual reality-applikationer.

Kilde: dailyai.com