• បដា

OpenAI ចំណុច E៖ បង្កើតពពកចំណុច 3D ពីទម្រង់រលកស្មុគស្មាញក្នុងរយៈពេលប៉ុន្មាននាទីនៅលើ GPU តែមួយ

នៅក្នុងអត្ថបទថ្មី Point-E៖ ប្រព័ន្ធសម្រាប់បង្កើតពពកចំណុច 3D ពីសញ្ញាស្មុគ្រស្មាញ ក្រុមស្រាវជ្រាវ OpenAI ណែនាំចំណុច E ដែលជាប្រព័ន្ធសំយោគតាមលក្ខខណ្ឌនៃអត្ថបទពពកចំណុច 3D ដែលប្រើគំរូចែកចាយដើម្បីបង្កើតទម្រង់ 3D ចម្រុះ និងស្មុគស្មាញដែលជំរុញដោយអត្ថបទស្មុគស្មាញ។ សញ្ញាក្នុងប៉ុន្មាននាទីនៅលើ GPU តែមួយ។
ការអនុវត្តដ៏អស្ចារ្យនៃគំរូនៃការបង្កើតរូបភាពទំនើបនាពេលបច្ចុប្បន្ននេះបានជំរុញការស្រាវជ្រាវនៅក្នុងការបង្កើតវត្ថុអត្ថបទ 3D ។ទោះយ៉ាងណាក៏ដោយ មិនដូចម៉ូដែល 2D ដែលអាចបង្កើតលទ្ធផលក្នុងរយៈពេលប៉ុន្មាននាទី ឬសូម្បីតែវិនាទី ម៉ូដែលបង្កើតវត្ថុជាធម្មតាត្រូវការការងារ GPU ជាច្រើនម៉ោងដើម្បីបង្កើតគំរូតែមួយ។
នៅក្នុងអត្ថបទថ្មី Point-E៖ ប្រព័ន្ធសម្រាប់បង្កើតពពកចំណុច 3D ពីសញ្ញាស្មុគស្មាញ ក្រុមស្រាវជ្រាវ OpenAI បង្ហាញ Point·E ដែលជាប្រព័ន្ធសំយោគតាមលក្ខខណ្ឌអត្ថបទសម្រាប់ពពកចំណុច 3D ។វិធីសាស្រ្តថ្មីនេះប្រើគំរូផ្សព្វផ្សាយដើម្បីបង្កើតទម្រង់ 3D ចម្រុះ និងស្មុគ្រស្មាញពីសញ្ញាអត្ថបទស្មុគស្មាញក្នុងរយៈពេលត្រឹមតែមួយនាទី ឬពីរនៅលើ GPU តែមួយ។
ក្រុមការងារផ្តោតលើបញ្ហាប្រឈមនៃការបំប្លែងអត្ថបទទៅជា 3D ដែលមានសារៈសំខាន់ក្នុងការធ្វើប្រជាធិបតេយ្យដល់ការបង្កើតខ្លឹមសារ 3D សម្រាប់កម្មវិធីពិភពលោកពិត ចាប់ពីការពិតនិម្មិត និងហ្គេមរហូតដល់ការរចនាឧស្សាហកម្ម។វិធីសាស្ត្រដែលមានស្រាប់សម្រាប់ការបំប្លែងអត្ថបទទៅជា 3D ធ្លាក់ជាពីរប្រភេទ ដែលនីមួយៗមានគុណវិបត្តិរបស់វា៖ 1) គំរូទូទៅអាចត្រូវបានប្រើដើម្បីបង្កើតគំរូប្រកបដោយប្រសិទ្ធភាព ប៉ុន្តែមិនអាចធ្វើមាត្រដ្ឋានប្រកបដោយប្រសិទ្ធភាពសម្រាប់សញ្ញាអត្ថបទចម្រុះ និងស្មុគស្មាញ។2) គំរូរូបភាពអត្ថបទដែលបានបណ្តុះបណ្តាលជាមុន ដើម្បីដោះស្រាយអក្សរដែលស្មុគស្មាញ និងផ្លាស់ប្តូរ ប៉ុន្តែវិធីសាស្រ្តនេះគឺពឹងផ្អែកខ្លាំងលើការគណនា ហើយគំរូអាចជាប់គាំងបានយ៉ាងងាយស្រួលនៅក្នុងមីនីម៉ាក្នុងស្រុកដែលមិនទាក់ទងទៅនឹងវត្ថុ 3D ដែលមានអត្ថន័យ ឬជាប់គ្នា។
ដូច្នេះហើយ ក្រុមការងារបានស្វែងរកវិធីសាស្រ្តជំនួសដែលមានគោលបំណងបញ្ចូលគ្នានូវភាពខ្លាំងនៃវិធីសាស្រ្តទាំងពីរខាងលើ ដោយប្រើគំរូនៃការសាយភាយអត្ថបទទៅរូបភាពដែលត្រូវបានបណ្តុះបណ្តាលលើសំណុំនៃគូអត្ថបទរូបភាពធំមួយ (អនុញ្ញាតឱ្យវាដោះស្រាយសញ្ញាចម្រុះ និងស្មុគស្មាញ) និង គំរូផ្សព្វផ្សាយរូបភាព 3D ដែលត្រូវបានបណ្តុះបណ្តាលលើសំណុំតូចជាងនៃគូអត្ថបទ-រូបភាព។សំណុំទិន្នន័យគូរូបភាព 3D ។គំរូអត្ថបទទៅរូបភាពជាដំបូងគំរូរូបភាពបញ្ចូលដើម្បីបង្កើតតំណាងសំយោគតែមួយ ហើយគំរូរូបភាពទៅ 3D បង្កើតពពកចំណុច 3D ដោយផ្អែកលើរូបភាពដែលបានជ្រើសរើស។
ជង់បង្កើតរបស់ពាក្យបញ្ជាគឺផ្អែកលើគ្រោងការណ៍បង្កើតដែលបានស្នើឡើងថ្មីៗនេះសម្រាប់ការបង្កើតរូបភាពតាមលក្ខខណ្ឌពីអត្ថបទ (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020)។ពួកគេប្រើគំរូ GLIDE ដែលមានប៉ារ៉ាម៉ែត្រ GLIDE 3 ពាន់លាន (Nichol et al., 2021) ដែលត្រូវបានកែសម្រួលយ៉ាងម៉ត់ចត់លើគំរូ 3D ដែលបានបង្ហាញ ជាគំរូបំប្លែងអត្ថបទទៅរូបភាពរបស់ពួកគេ និងសំណុំនៃគំរូនៃការសាយភាយដែលបង្កើតពពកចំណុច RGB ជារបស់ពួកគេ គំរូផ្លាស់ប្តូរ។រូបភាពទៅជារូបភាព។ម៉ូដែល 3D ។
ខណៈពេលដែលការងារពីមុនបានប្រើស្ថាបត្យកម្ម 3D ដើម្បីដំណើរការចំណុចពពក អ្នកស្រាវជ្រាវបានប្រើគំរូដែលមានមូលដ្ឋានលើឧបករណ៍ប្តូរធម្មតា (Vaswani et al., 2017) ដើម្បីបង្កើនប្រសិទ្ធភាព។នៅក្នុងស្ថាបត្យកម្មគំរូនៃការសាយភាយរបស់ពួកគេ រូបភាពពពកដំបូងត្រូវបានបញ្ចូលទៅក្នុងគំរូ ViT-L/14 CLIP ដែលបានបណ្តុះបណ្តាលជាមុន ហើយបន្ទាប់មកសំណាញ់លទ្ធផលត្រូវបានបញ្ចូលទៅក្នុងឧបករណ៍បំលែងជាសញ្ញាសម្គាល់។
នៅក្នុងការសិក្សាជាក់ស្តែងរបស់ពួកគេ ក្រុមការងារបានប្រៀបធៀបវិធីសាស្ត្រ Point·E ដែលបានស្នើឡើងជាមួយនឹងគំរូ 3D ទូទៅផ្សេងទៀត លើសញ្ញាពិន្ទុពីការរកឃើញវត្ថុ COCO ការបែងចែក និងសំណុំទិន្នន័យហត្ថលេខា។លទ្ធផលបញ្ជាក់ថា Point·E អាចបង្កើតទម្រង់ 3D ចម្រុះ និងស្មុគ្រស្មាញពីសញ្ញាអត្ថបទស្មុគស្មាញ និងបង្កើនល្បឿននៃការសន្និដ្ឋានតាមលំដាប់លំដោយមួយទៅពីរ។ក្រុមការងារសង្ឃឹមថាការងាររបស់ពួកគេនឹងជំរុញការស្រាវជ្រាវបន្ថែមលើការសំយោគអត្ថបទ 3D ។
គំរូផ្សព្វផ្សាយពពក និងលេខកូដវាយតម្លៃដែលបានបណ្តុះបណ្តាលរួចមកហើយមាននៅលើ GitHub របស់គម្រោង។Document Point-E៖ ប្រព័ន្ធសម្រាប់បង្កើតពពកចំណុច 3D ពីតម្រុយស្មុគស្មាញគឺនៅលើ arXiv។
យើងដឹងថាអ្នកមិនចង់ខកខានព័ត៌មាន ឬរបកគំហើញវិទ្យាសាស្ត្រណាមួយឡើយ។ជាវព្រឹត្តិប័ត្រព័ត៌មានប្រចាំសប្តាហ៍ Synced Global AI ដ៏ពេញនិយមរបស់យើង ដើម្បីទទួលបានព័ត៌មានថ្មីៗ AI ប្រចាំសប្តាហ៍។


ពេលវេលាប្រកាស៖ ថ្ងៃទី ២៨ ខែធ្នូ ឆ្នាំ ២០២២