Dalším přelomovým objevem ve světě umělé inteligence bude možná generování 3D modelů. Tento týden společnost OpenAI představila Point-E, systém strojového učení, který na základě textového vstupu vytvoří 3D model. Informoval o tom server Engadget a TechCrunch.
3D modelování se používá v různých odvětvích a aplikacích. Věci jako CGI efekty filmů, videohry, VR a AR, nebo i mise NASA pro mapování měsíčních kráterů, závisí na možnostech 3D modelování. Vytváření fotorealistických 3D objektů je však stále náročné na zdroje a čas. Existující systémy obvykle vyžadují několik hodin a několik grafických procesorů k vygenerování modelů. Nový Point-E ale potřebuje pouze jeden grafický procesor a minutu nebo dvě.
OpenAI releases Point-E, which is like DALL-E but for 3D modeling https://t.co/RXIy8V707C pic.twitter.com/a097tFoXIl
— Engadget (@engadget) December 20, 2022
Point-E je několikanásobně efektivnější než konkurence
Jak uvádí server TechCrunch, Point-E nevytváří 3D objekty v tradičním smyslu. Vytváří spíše mračna bodů neboli diskrétní sady datových bodů v prostoru, které představují 3D tvar. Písmeno E ve jméně Point-E je zkratka pro „efficiency“, protože je údajně rychlejší než předchozí přístupy ke generování 3D modelů.
Mračna bodů se z výpočetního hlediska snáze syntetizují, ale nezachycují jemný tvar nebo texturu objektu. To je v současné době klíčové omezení systému Point-E. Aby společnost OpenAI toto omezení obešla, vycvičila další systém umělé inteligence, který převádí mračna bodů Point-E na sítě. Sítě, neboli soubory vrcholů, hran a ploch, které definují objekt, se běžně používají při 3D modelování a navrhování. Společnost však poznamenává, že model může někdy vynechat určité části objektů, což má za následek kostrbaté nebo zkreslené tvary.
Kromě modelu pro generování sítě se Point-E skládá ze dvou hlavních modelů. Jedná se o „text-to-image“, neboli text na obraz a „image-to-3D“, neboli převod obrazu na 3D. Model text-to-image, podobný systémům, jako jsou DALL-E 2 nebo Stable Diffusion, byl vycvičen na označených obrázcích, aby pochopil asociace mezi slovy a vizuálními pojmy. Model image-to-3D byl krmen sadou obrázků spárovaných s 3D objekty, aby se naučil efektivně překládat mezi nimi.
Každý z těchto modelů byl vycvičen na milionech podnětů, které byly převedeny do standardizovaného formátu. „Ačkoli naše metoda dosahuje horších výsledků než nejmodernější techniky, vytváří výstup za malý zlomek času,“ uvedl tým vývojářů. Jak je u společnosti OpenAI zvykem, kód projektu je volně k dispozici na Githubu.