• baner

OpenAI Point E: Skapa ett 3D-punktmoln från komplexa vågformer på några minuter på en enda GPU

I en ny artikel Point-E: Ett system för att generera 3D-punktmoln från komplexa signaler, introducerar OpenAI-forskargruppen Point E, ett villkorligt syntessystem för 3D-punktmolntext som använder diffusionsmodeller för att skapa varierade och komplexa 3D-former drivna av komplex text ledtrådar.på några minuter på en enda GPU.
Den fantastiska prestandan hos dagens toppmoderna bildgenereringsmodeller har stimulerat forskning inom generering av 3D-textobjekt.Men till skillnad från 2D-modeller, som kan generera utdata på minuter eller till och med sekunder, kräver objektgenerativa modeller vanligtvis flera timmars GPU-arbete för att generera ett enda prov.
I en ny artikel Point-E: Ett system för att generera 3D-punktmoln från komplexa signaler presenterar OpenAI-forskargruppen Point·E, ett textuellt villkorligt syntessystem för 3D-punktmoln.Detta nya tillvägagångssätt använder en spridningsmodell för att skapa varierade och komplexa 3D-former från komplexa textsignaler på bara en minut eller två på en enda GPU.
Teamet är fokuserat på utmaningen att konvertera text till 3D, vilket är avgörande för att demokratisera skapandet av 3D-innehåll för verkliga tillämpningar, allt från virtuell verklighet och spel till industriell design.Befintliga metoder för att konvertera text till 3D delas in i två kategorier, som var och en har sina nackdelar: 1) generativa modeller kan användas för att generera sampel effektivt, men kan inte skala effektivt för olika och komplexa textsignaler;2) en förtränad text-bild-modell för att hantera komplexa och varierande text-cues, men detta tillvägagångssätt är beräkningsintensivt och modellen kan lätt fastna i lokala minima som inte motsvarar meningsfulla eller sammanhängande 3D-objekt.
Därför utforskade teamet ett alternativt tillvägagångssätt som syftar till att kombinera styrkorna med de två ovanstående metoderna, med hjälp av en text-till-bild-diffusionsmodell tränad på en stor uppsättning text-bild-par (så att den kan hantera olika och komplexa signaler) och en 3D-bildspridningsmodell tränad på en mindre uppsättning text-bildpar.bild-3D-pardatauppsättning.Text-till-bild-modellen samplar först ingångsbilden för att skapa en enda syntetisk representation, och bild-till-3D-modellen skapar ett 3D-punktmoln baserat på den valda bilden.
Kommandots generativa stack är baserad på nyligen föreslagna generativa ramverk för att villkorligt generera bilder från text (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).De använder en GLIDE-modell med 3 miljarder GLIDE-parametrar (Nichol et al., 2021), finjusterade på renderade 3D-modeller, som sin text-till-bild-transformationsmodell, och en uppsättning diffusionsmodeller som genererar RGB-punktmoln som deras transformationsmodell.bilder till bild.3D-modeller.
Medan tidigare arbeten använde 3D-arkitekturer för att bearbeta punktmoln, använde forskarna en enkel transduktorbaserad modell (Vaswani et al., 2017) för att förbättra effektiviteten.I deras diffusionsmodellarkitektur matas punktmolnbilder först in i en förtränad ViT-L/14 CLIP-modell och sedan matas utdatamaskorna in i omvandlaren som markörer.
I sin empiriska studie jämförde teamet den föreslagna Point·E-metoden med andra generativa 3D-modeller för poängsättningssignaler från COCO-objektdetektering, segmentering och signaturdatauppsättningar.Resultaten bekräftar att Point·E kan generera olika och komplexa 3D-former från komplexa textsignaler och påskynda slutledningstiden med en till två storleksordningar.Teamet hoppas att deras arbete kommer att inspirera till ytterligare forskning om 3D-textsyntes.
En förtränad modell för utbredning av punktmoln och utvärderingskod finns på projektets GitHub.Document Point-E: Ett system för att skapa 3D-punktmoln från komplexa ledtrådar finns på arXiv.
Vi vet att du inte vill missa några nyheter eller vetenskapliga upptäckter.Prenumerera på vårt populära Synced Global AI Weekly-nyhetsbrev för att få uppdateringar om AI varje vecka.


Posttid: 2022-12-28