• બેનર

OpenAI પોઈન્ટ E: એક જ GPU પર મિનિટોમાં જટિલ વેવફોર્મ્સમાંથી 3D પોઈન્ટ ક્લાઉડ બનાવો

એક નવા લેખમાં Point-E: જટિલ સિગ્નલોમાંથી 3D પોઈન્ટ ક્લાઉડ જનરેટ કરવા માટેની સિસ્ટમ, OpenAI સંશોધન ટીમે Point Eનો પરિચય આપ્યો છે, જે 3D પોઈન્ટ ક્લાઉડ ટેક્સ્ટ કન્ડીશનલ સિન્થેસિસ સિસ્ટમ છે જે જટિલ ટેક્સ્ટ દ્વારા સંચાલિત વૈવિધ્યસભર અને જટિલ 3D આકારો બનાવવા માટે પ્રસરણ મોડલ્સનો ઉપયોગ કરે છે. સંકેતોએક જ GPU પર મિનિટોમાં.
આજના અદ્યતન ઇમેજ જનરેશન મૉડલ્સના અદ્ભુત પ્રદર્શને 3D ટેક્સ્ટ ઑબ્જેક્ટના જનરેશનમાં સંશોધનને ઉત્તેજન આપ્યું છે.જો કે, 2D મોડલ્સથી વિપરીત, જે મિનિટો અથવા તો સેકંડમાં આઉટપુટ જનરેટ કરી શકે છે, ઑબ્જેક્ટ જનરેટિવ મોડલ્સને સામાન્ય રીતે એક જ સેમ્પલ જનરેટ કરવા માટે GPU કામના ઘણા કલાકોની જરૂર પડે છે.
નવા લેખ Point-E: જટિલ સિગ્નલોમાંથી 3D પોઈન્ટ ક્લાઉડ જનરેટ કરવા માટેની સિસ્ટમમાં, OpenAI સંશોધન ટીમ પોઈન્ટ·E રજૂ કરે છે, જે 3D પોઈન્ટ ક્લાઉડ્સ માટે એક ટેક્સ્ચ્યુઅલ કન્ડીશનલ સિન્થેસિસ સિસ્ટમ છે.આ નવો અભિગમ એક જ GPU પર માત્ર એક કે બે મિનિટમાં જટિલ ટેક્સ્ટ સિગ્નલોમાંથી વૈવિધ્યસભર અને જટિલ 3D આકાર બનાવવા માટે પ્રચાર મોડેલનો ઉપયોગ કરે છે.
ટીમ ટેક્સ્ટને 3Dમાં રૂપાંતરિત કરવાના પડકાર પર ધ્યાન કેન્દ્રિત કરે છે, જે વર્ચ્યુઅલ રિયાલિટી અને ગેમિંગથી લઈને ઔદ્યોગિક ડિઝાઇન સુધીની વાસ્તવિક દુનિયાની એપ્લિકેશનો માટે 3D સામગ્રી નિર્માણને લોકશાહી બનાવવા માટે મહત્વપૂર્ણ છે.ટેક્સ્ટને 3Dમાં કન્વર્ટ કરવાની હાલની પદ્ધતિઓ બે કેટેગરીમાં આવે છે, જેમાંની દરેકમાં તેની ખામીઓ છે: 1) જનરેટિવ મોડલનો ઉપયોગ અસરકારક રીતે નમૂનાઓ બનાવવા માટે થઈ શકે છે, પરંતુ વિવિધ અને જટિલ ટેક્સ્ટ સિગ્નલો માટે કાર્યક્ષમ રીતે માપન કરી શકતું નથી;2) જટિલ અને વૈવિધ્યસભર ટેક્સ્ટ સંકેતોને હેન્ડલ કરવા માટે પૂર્વ-પ્રશિક્ષિત ટેક્સ્ટ-ઇમેજ મોડલ, પરંતુ આ અભિગમ કોમ્પ્યુટેશનલી સઘન છે અને મોડેલ સરળતાથી સ્થાનિક મિનિમામાં અટવાઇ શકે છે જે અર્થપૂર્ણ અથવા સુસંગત 3D ઑબ્જેક્ટ્સને અનુરૂપ નથી.
તેથી, ટીમે વૈકલ્પિક અભિગમની શોધ કરી કે જેનો ઉદ્દેશ ઉપરોક્ત બે અભિગમોની શક્તિઓને જોડવાનો છે, ટેક્સ્ટ-ટુ-ઇમેજ પ્રસરણ મોડેલનો ઉપયોગ કરીને ટેક્સ્ટ-ઇમેજ જોડીઓના વિશાળ સમૂહ (તેને વૈવિધ્યસભર અને જટિલ સંકેતોને હેન્ડલ કરવાની મંજૂરી આપે છે) અને ટેક્સ્ટ-ઇમેજ જોડીના નાના સેટ પર પ્રશિક્ષિત 3D ઇમેજ ડિફ્યુઝન મોડલ.image-3D જોડી ડેટાસેટ.ટેક્સ્ટ-ટુ-ઇમેજ મોડેલ પ્રથમ એક સિન્થેટિક રજૂઆત બનાવવા માટે ઇનપુટ ઇમેજનું નમૂના લે છે, અને ઇમેજ-ટુ-3D મોડલ પસંદ કરેલી છબીના આધારે 3D પોઇન્ટ ક્લાઉડ બનાવે છે.
આદેશનો જનરેટિવ સ્ટેક ટેક્સ્ટમાંથી શરતી રીતે ઇમેજ બનાવવા માટે તાજેતરમાં પ્રસ્તાવિત જનરેટિવ ફ્રેમવર્ક પર આધારિત છે (સોહલ-ડિકસ્ટેઇન એટ અલ., 2015; ગીત અને એર્મોન, 2020b; હો એટ અલ., 2020).તેઓ 3 બિલિયન ગ્લાઈડ પેરામીટર્સ (નિકોલ એટ અલ., 2021) સાથે ગ્લાઈડ મૉડલનો ઉપયોગ કરે છે, તેમના ટેક્સ્ટ-ટુ-ઈમેજ ટ્રાન્સફોર્મેશન મૉડલ તરીકે રેન્ડર કરેલા 3D મૉડલ્સ પર ફાઇન-ટ્યુન કરે છે, અને ડિફ્યુઝન મૉડલનો સમૂહ જે આરજીબી પૉઇન્ટ ક્લાઉડ જનરેટ કરે છે. પરિવર્તન મોડલ.ઈમેજ થી ઈમેજ.3D મોડલ્સ.
જ્યારે અગાઉના કાર્યમાં પોઈન્ટ ક્લાઉડ્સ પર પ્રક્રિયા કરવા માટે 3D આર્કિટેક્ચરનો ઉપયોગ કરવામાં આવ્યો હતો, ત્યારે સંશોધકોએ કાર્યક્ષમતા સુધારવા માટે સરળ ટ્રાન્સડ્યુસર-આધારિત મોડલ (વાસવાણી એટ અલ., 2017) નો ઉપયોગ કર્યો હતો.તેમના ડિફ્યુઝન મોડલ આર્કિટેક્ચરમાં, પોઈન્ટ ક્લાઉડ ઈમેજીસને પહેલા પૂર્વ-પ્રશિક્ષિત ViT-L/14 CLIP મોડલમાં ખવડાવવામાં આવે છે અને પછી આઉટપુટ મેશને કન્વર્ટરમાં માર્કર તરીકે ફીડ કરવામાં આવે છે.
તેમના પ્રયોગમૂલક અભ્યાસમાં, ટીમે COCO ઑબ્જેક્ટ ડિટેક્શન, સેગ્મેન્ટેશન અને સિગ્નેચર ડેટાસેટ્સમાંથી સ્કોરિંગ સિગ્નલો પર અન્ય જનરેટિવ 3D મોડલ્સ સાથે સૂચિત Point·E પદ્ધતિની સરખામણી કરી.પરિણામો પુષ્ટિ કરે છે કે Point·E જટિલ ટેક્સ્ટ સિગ્નલોમાંથી વૈવિધ્યસભર અને જટિલ 3D આકારો ઉત્પન્ન કરવામાં સક્ષમ છે અને તીવ્રતાના એકથી બે ઓર્ડર દ્વારા અનુમાન સમયને ઝડપી બનાવે છે.ટીમને આશા છે કે તેમનું કાર્ય 3D ટેક્સ્ટ સિન્થેસિસમાં વધુ સંશોધનને પ્રેરણા આપશે.
પ્રોજેક્ટના GitHub પર પૂર્વ પ્રશિક્ષિત બિંદુ ક્લાઉડ પ્રચાર મોડેલ અને મૂલ્યાંકન કોડ ઉપલબ્ધ છે.ડોક્યુમેન્ટ પોઈન્ટ-ઈ: જટિલ સંકેતોમાંથી 3D પોઈન્ટ ક્લાઉડ બનાવવા માટેની સિસ્ટમ arXiv પર છે.
અમે જાણીએ છીએ કે તમે કોઈપણ સમાચાર અથવા વૈજ્ઞાનિક શોધને ચૂકવા માંગતા નથી.સાપ્તાહિક AI અપડેટ્સ મેળવવા માટે અમારા લોકપ્રિય સમન્વયિત વૈશ્વિક AI સાપ્તાહિક ન્યૂઝલેટર પર સબ્સ્ક્રાઇબ કરો.


પોસ્ટ સમય: ડિસેમ્બર-28-2022