今日视点【diǎn】:单卡 30 秒跑出虚拟 3D 老婆【pó】!Text to 3D 生成看清【qīng】毛孔【kǒng】细节的高精度数字人,无缝【féng】衔【xián】接 Maya、Unity 等制作工具

2024-9-21 15:19:07来源:量子位

ChatGPT 给 AI 行业注入一剂【jì】鸡血,一切曾经的不【bú】敢想,都成【chéng】为如今的基操【cāo】。

正持续进击的Text-to-3D,就被视为继 Diffusion(图像)和 GPT(文字)后【hòu】,AIGC 领域的下一个前沿热点【diǎn】,得【dé】到【dào】了前【qián】所未有【yǒu】的关注度。

这不,一【yī】款名为 ChatAvatar 的【de】产品低调公测,火速收揽超【chāo】 70 万浏览与关注,并登上【shàng】抱抱【bào】脸周热【rè】门(Spaces of the week)。


(资料图片仅供参考)

ChatAvatar 也将支持【chí】从 AI 生成【chéng】的单视角 / 多【duō】视角原画生成 3D 风【fēng】格化角色的【de】 Image to 3D 技术,受到了广泛关【guān】注

有够酷的,感觉能很便捷地生成自己的数字孪生了。

由此吸引不少【shǎo】网友【yǒu】纷纷试用【yòng】并贡献脑洞【dòng】。有人拿这【zhè】款产品【pǐn】和【hé】 ControlNet 结合,发现效果细腻写实到有些【xiē】出乎意料。这款使【shǐ】用起来几乎零门槛【kǎn】的 Text-to-3D 工具名【míng】叫【jiào】ChatAvatar,由国内 AI 初创公司影眸科技团队打造。

据了【le】解,这是全【quán】球首款 Production-Ready 的 Text to 3D 产品【pǐn】,通过简【jiǎn】单的文本,例【lì】如一个明星的名字、或是【shì】某【mǒu】个想要的人物长【zhǎng】相,就【jiù】能生成影视级【jí】的 3D 超写实数字人资产。

效率也非常高,平【píng】均仅需【xū】 30 秒,就能做出一张以【yǐ】假乱【luàn】真【zhēn】的脸——甚至是【shì】你自己的。

未来,生成领域还将拓展到其他三维资产。

并且【qiě】该模型带有规整的拓扑【pū】、带有 4k 分【fèn】辨率【lǜ】的 PBR 材质【zhì】,同【tóng】时带有绑定,可【kě】以直接【jiē】接入 Unity、Unreal Engine 和 Maya 等制作引【yǐn】擎的生产管线中。

所以【yǐ】,ChatAvatar 到【dào】底是怎样一【yī】个 3D 生成【chéng】工【gōng】具?背后究竟用到了什么技【jì】术?

30 秒完成一次 " 画皮 "

亲身体【tǐ】验 ChatAvatar 的【de】玩法发现,可以【yǐ】说【shuō】是【shì】真 · 零门槛。

具体而言,只需以对话的形式,在官网上用大白话向 ChatBot 描述自己的需求,就能【néng】按需生成【chéng】 3D 人脸,并【bìng】覆盖一张贴合模型的真实 " 人皮【pí】 "。

对话全流程里,根据用户需求,ChatBot 会进行引导,尽可能细节地了解用户对所需模型的想法。

体【tǐ】验【yàn】过程中,我们向 ChatBot 描述了这样【yàng】一个【gè】想要生成的【de】 3D 形象:点击【jī】左侧的 Generate 按钮【niǔ】,平均 10s 不到,屏幕【mù】上就出现根据描述生【shēng】成的 9 种不同 3D 人脸的初始雏【chú】形。

随意选择其中一种后,会基于选择继续【xù】优【yōu】化模型和材质,最【zuì】后出现覆【fù】盖皮肤后的【de】模型【xíng】渲结果【guǒ】,并展现【xiàn】不同光影【yǐng】下【xià】的渲染效果——这些渲染【rǎn】在浏览【lǎn】器内实时完成:

用鼠标拖动,还能旋转【zhuǎn】头部,并放【fàng】大看【kàn】更细节的局部【bù】效【xiào】果,毛孔【kǒng】和痘痘【dòu】都清晰可见【jiàn】:值得【dé】一提的是,如果用户是个提示工程高手,直接在左侧框【kuàng】中输入【rù】 prompt,同样可以完成【chéng】生【shēng】成。

虽然 beta 版本还没上线【xiàn】发型功【gōng】能,但整体【tǐ】而言,最后生【shēng】成的【de】 3D 数字人资产与描述内容已经有【yǒu】高【gāo】匹配度。

官网【wǎng】上还陈列了许【xǔ】多 ChatAvatar 用户的【de】生成资产【chǎn】,不同【tóng】人种、不【bú】同肤色、不同年龄,喜怒哀乐,美丑胖瘦,各【gè】式相貌应有【yǒu】尽有【yǒu】。

总【zǒng】结一下 ChatAvatar 这款产品生成 3D 数字【zì】人【rén】资产的效果亮点:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

根【gēn】据官方宣传片介绍【shào】,ChatAvatar 甚至可【kě】以进一【yī】步生【shēng】成超出人类范畴的【de】角色,如阿凡达等影视【shì】作品中的角色:最重【chóng】要的是【shì】,ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题

这意味着,ChatAvatar 生成【chéng】的 3D 资【zī】产可以直接接【jiē】入【rù】游戏和【hé】影视生产流程。

当然,在正式接入工业流程之前,首轮公测,ChatAvatar 已经【jīng】吸引了数千名艺术【shù】家和【hé】专【zhuān】业美术人员参与,推特【tè】相关话【huà】题受到近百万的【de】浏览与【yǔ】关注【zhù】。

随随便便一条推文,浏览量都能破 50k。

积【jī】攒了大批 " 自来【lái】水 " 不是【shì】没有原因,看看 3D 的【de】爱因斯坦之脸,试【shì】问谁不说一句真的很像?要【yào】是和 ControlNet 结合,生成效果不亚【yà】于【yú】单反相片直出:已经有不少【shǎo】用户体验后【hòu】,开始畅想将这个【gè】 Text-to-3D 工具【jù】大规【guī】模应【yīng】用在游戏【xì】、影视等工【gōng】业应用上了。

据【jù】了解,用【yòng】户反馈会成为 ChatAvatar 团【tuán】队快速迭【dié】代和更新的重要依据,形成【chéng】数据飞轮,以便及时【shí】提供【gòng】更加【jiā】完整和【hé】贴近需求的功【gōng】能。

事实上,对于此【cǐ】前的【de】 3D 行业【yè】设【shè】计师或【huò】公司来说,大部分 AI 文【wén】字转【zhuǎn】 3D 应用并非【fēi】效果不好【hǎo】,但实际【jì】落地到工业设计流程上,还是有不少难度。

这次 ChatAvatar 能如此出圈【quān】,背后究竟有什【shí】么技术上【shàng】的原因?

符合产业要求的 3D 资产生成,究竟难在哪?

都说 AI 要替【tì】代人类,事实【shí】上仅仅就 Text-to-3D 领域,就并非【fēi】那么容易替代。

最大的难点,在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么理解?从【cóng】专【zhuān】业 3D 美工设【shè】计的视角【jiǎo】来说,至【zhì】少有三个【gè】方面——

质量、可控性和生成速度。

首先是【shì】质量。尤其是对于【yú】强调视觉效果的影视、游戏行业【yè】来说【shuō】,要想生成符【fú】合管线要求【qiú】的 3D 资产【chǎn】,拓扑规整度、纹理贴图的【de】精【jīng】度等 " 行业潜【qián】规【guī】则 ",都【dōu】是 AI 产【chǎn】品第一道必【bì】须迈过去的坎。

以拓扑结构的规整度为【wéi】例,这【zhè】里本质上【shàng】指的是 3D 资产布线【xiàn】的【de】合理度【dù】。

对于 3D 资【zī】产来说,拓扑的规整度,往往直【zhí】接影响物体的动画效果、修改处理【lǐ】效率和【hé】贴图绘【huì】制速度【dù】:

据【jù】行内 3D 美工设计介绍,手工重【chóng】拓扑的时间成本往往比制作 3D 模型本身【shēn】更高,甚【shèn】至【zhì】按倍【bèi】数【shù】以计。这意【yì】味着即使 AI 模型生【shēng】成的 3D 资【zī】产【chǎn】再炫酷,如果生成【chéng】的拓扑规整度达不到要求,成本就无法从根本上【shàng】得到【dào】降低。更【gèng】别【bié】提【tí】纹理精度。

影眸科【kē】技的 ChatAvatar 项目在生成质量、速【sù】度以及标准【zhǔn】兼容上【shàng】相【xiàng】比先前的工【gōng】作都有明显【xiǎn】的提升

以目【mù】前游戏、影视【shì】行业【yè】普【pǔ】遍【biàn】要求的【de】 PBR 贴图为例,包含的反射率贴图【tú】、法线贴图等一系列贴图,相当于 2D 图像 PSD 文件的【de】 " 图层 ",是 3D 资产【chǎn】流水【shuǐ】线【xiàn】生产必不可少的条件之【zhī】一。

然而【ér】,目前 AI 生成的 3D 资产往【wǎng】往【wǎng】是【shì】一个 " 整体 ",少有能按【àn】要求【qiú】单独生成符合产业环境的 PBR 贴【tiē】图的效【xiào】果。

其次是可【kě】控性,对于生成式【shì】 AI 而言,如何让生成的内容更加 " 可控【kòng】 ",是【shì】 CG 产业【yè】对于这项【xiàng】技术提出的又一大要求【qiú】。

以【yǐ】大众所熟知的【de】 2D 产【chǎn】业为例,在 ControlNet 出【chū】现之【zhī】前,2D AIGC 行业一直处在一种 " 半摸【mō】黑前进 " 的【de】状【zhuàng】态。

也就【jiù】是说,AI 能生成指【zhǐ】定类别【bié】的物【wù】体画面,却【què】无法生成指定姿态的物体,生成效果全靠提示【shì】工程【chéng】和【hé】 " 玄学 "。

而在 ControlNet 出【chū】现后,2D AI 图像生成的【de】可【kě】控性获得了突飞猛进的提【tí】升,然而【ér】对于 3D AI 而【ér】言,要想生成对应效【xiào】果的资产,很大程【chéng】度上依旧得依【yī】靠专业的提示工程。

最【zuì】后是生成速度。相比 3D 美工设计而言,AI 生【shēng】成的优【yōu】势在于速度,然而如【rú】果 AI 渲【xuàn】染的速度和效【xiào】果无法与【yǔ】人工匹敌【dí】的话,那【nà】么【me】这项技【jì】术依旧无【wú】法给产业带来【lái】收益。

以当前在 AI 技术上颇受欢迎的 NeRF 为例【lì】,其产【chǎn】业化落地就面临速【sù】度【dù】和质量【liàng】的兼【jiān】容性难题。

在生【shēng】成【chéng】质量较高的情况下【xià】,基于【yú】 NeRF 的 3D 生成往往需要相当漫长的时间;然而【ér】如果追【zhuī】求速度【dù】,即使是 NeRF 生成的 3D 资产便【biàn】完全无法投【tóu】入产业使用。

但即使解决了这个问【wèn】题【tí】,如何【hé】在不损失精度的前【qián】提下让 NeRF 与【yǔ】传统【tǒng】 CG 行业的主流引擎兼【jiān】容仍【réng】然是一个巨大的问题。

从上面的产业标准化流程【chéng】不难【nán】发现,大部分 AI 文本【běn】转 3D 应用落【luò】地存【cún】在两大瓶颈

一个【gè】是需要手【shǒu】动完成提【tí】示工程,对于非 AI 专业人士【shì】、或不【bú】了解 AI 的设计师来说不够友好;另一个是生成的 3D 资产往往【wǎng】不【bú】符合产业标准,即使再好看【kàn】也无【wú】法投入使用。

针对这两点【diǎn】,ChatAvatar 给出【chū】了两点具体有效的解【jiě】决方【fāng】案。

一方面,ChatAvatar 实现【xiàn】了【le】除手动【dòng】输入【rù】提【tí】示【shì】工【gōng】程外的第二条道路,也是【shì】更适【shì】合普通人【rén】的一条捷径:通过 " 甲方模式 " 直接对话描述需求【qiú】。

团队官方推特【tè】介【jiè】绍【shào】称【chēng】,为了实现这一特性,ChatAvatar 基于【yú】 GPT 的能力,开发了一种对话描述转人【rén】像【xiàng】特征的方法。

设计【jì】师【shī】只需要不【bú】断【duàn】和 GPT 聊天,描述自己想【xiǎng】要的 " 感觉 ":

GPT 就能自动帮忙完【wán】成提示工程,将结【jié】果输【shū】送给 AI:换【huàn】而言【yán】之,如果说 ControlNet 是 2D 行业的【de】 "Game Changer",那么对于 3D 产业来说,能实现文本转 3D 的【de】 ChatAvatar,无异于【yú】行业的【de】游戏规则改【gǎi】变者。

另一方【fāng】面更为重【chóng】要,那【nà】就是 ChatAvatar 能完美兼容 CG 管【guǎn】线【xiàn】,即生成的资产在拓扑结构、可控【kòng】性和速度上【shàng】都符合【hé】产【chǎn】业要求。

同时【shí】,生成的模型【xíng】和高精度材质贴【tiē】图,还能【néng】在后期的渲染中达【dá】到极为逼真的渲【xuàn】染效果【guǒ】。

为【wéi】了实现这【zhè】样的效果,团【tuán】队为 ChatAvatar 自研了【le】一个【gè】渐进【jìn】式 3D 生成框架 DreamFace。

其中的关【guān】键,在于【yú】训练该模型用的底层数据,即影眸【móu】科技基于 " 穹顶光【guāng】场 " 采【cǎi】集到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace 可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

通过引入【rù】外部【bù】 3D 数【shù】据库,DreamFace 能够直接【jiē】输出符合 CG 流程【chéng】的资产。

生成的资产驱动渲染的效果

上述两大技术瓶颈的解决【jué】,本质【zhì】上进一步加速了 AIGC 洪流下【xià】," 生成 " 将取代 " 搜【sōu】索 " 的【de】时代【dài】趋势——

影眸团队认为," 生成 " 将成为新一代数字资产的获取方式。

此前,我们需要【yào】找到一【yī】张符合需求的图【tú】片或者【zhě】资【zī】产【chǎn】时,通常会【huì】使用搜索引擎进行查询。

ChatAvatar 项目主页上展【zhǎn】示的巨【jù】大【dà】的 " 搜索框 " 和整齐的资产【chǎn】卡片,看似搜索【suǒ】引【yǐn】擎,但实际【jì】上是一种与搜索截然不【bú】同的资产查找方【fāng】式。

ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍:

以前,如【rú】果我们需要【yào】一【yī】张插【chā】图【tú】,可能要在多个图库中反复搜【sōu】索,或【huò】是【shì】通过【guò】 Photoshop 合成【chéng】、手绘【huì】等较复杂的方式才能【néng】得到结果。但在 Stable Diffusion 等技术出现后,你只需要通过文字描述想要【yào】的图像,就能直接生成符合需求【qiú】的结果。

这对于传统的资产【chǎn】库【kù】来说是一【yī】个【gè】巨大的冲击。而【ér】 ChatAvatar 的目标,正是用 3D 生成替代传统【tǒng】的【de】搜索式 3D 资产库。

AIGC 领域的下一个前沿热点

ChatGPT 一石激起千【qiān】层浪,进入 AI 2.0 时代【dài】之后,人【rén】们的目光也【yě】投向【xiàng】包含图像【xiàng】、视频、3D 等【děng】信息的多模态 AI。

仅就 3D 生成【chéng】领域而言【yán】,无论是影视还是游【yóu】戏行业,3D 内容生产和消费市【shì】场已【yǐ】经拥有足够大的规模,但【dàn】在【zài】制【zhì】作【zuò】层面【miàn】却因技术难度遭遇掣肘。

譬【pì】如,文本领域大行其道的 Transformer,在【zài】 3D 生成领域【yù】的使用还相【xiàng】对【duì】有【yǒu】限。

去年夏天,当文生图领【lǐng】域因 Diffusion Model 取得【dé】成绩后,人们开【kāi】始期待文字生成 3D有【yǒu】同样惊艳【yàn】的表现。一旦【dàn】生成式 AI 的 3D 创【chuàng】作技术成【chéng】熟,VR、视【shì】频等的内容创作都将起飞。

扩散模型【xíng】 Midjourney5.1 生成的 " 梵【fàn】高风摄影【yǐng】 "

事实上,无论是科技巨【jù】头还是【shì】初创公【gōng】司,的确都在朝 Text-to-3D 这个【gè】方【fāng】向暗暗发力。

去年 9 月,谷歌发【fā】布【bù】了基【jī】于文本提示生【shēng】成 3D 模【mó】型的 FreamFusion,声称不需要 3D 训练数据【jù】,也不需【xū】要修改图像扩【kuò】散模【mó】型【xíng】。紧随其后,Meta 也【yě】推出可以从【cóng】文本【běn】一键生成视频的 Make-A-Video 模型。

后来的 Text-to-3D 的 AI 模【mó】型队伍中【zhōng】,还先后出现了英伟达【dá】 Magic3D、OpenAI 最【zuì】新开【kāi】源项目 Shap-E 等【děng】,今年 8 月将【jiāng】举【jǔ】办的计算机图形【xíng】顶会【huì】 SIGGRAPH 2023 所展示的论文,也有【yǒu】多【duō】篇与 Text-to-3D 有关。

影【yǐng】眸【móu】科技【jì】有关【guān】文本指导的渐进【jìn】式 3D 生成框架 DreamFace 的论文,就是其中之一。

而【ér】 ChatAvatar,也是目前为止最集【jí】中【zhōng】在 3D 数【shù】字人资产【chǎn】方【fāng】向的生成式模型产品。

其背后的 AI 初创公司影眸科技,2020 年孵化自【zì】上海科技大【dà】学 MARS 实验室,成立后【hòu】获【huò】得【dé】奇绩创坛与红【hóng】杉种子的两轮投资。

公司专注于专注于计算机图形学、生成【chéng】式 AI 的研究与产品化。2021 年,AIGC 还未掀起巨【jù】浪之【zhī】时,公司【sī】就已经推出国内首个【gè】 AIGC ToC 绘【huì】画应用 Wand,产品一度【dù】登顶【dǐng】 AppStore 分区【qū】榜【bǎng】首。

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有 25 岁

将首个商【shāng】业化场景具体锚定在数字【zì】人后,ChatAvatar 是他【tā】们乘 AIGC 东风【fēng】在该【gāi】方向的【de】最新进展。

作为一【yī】个【gè】新推出的产品【pǐn】,ChatAvatar 在兼容性、完成度和【hé】精度等产【chǎn】品效果层面,都【dōu】超出【chū】了影眸团【tuán】队【duì】预期。然而【ér】在吴迪口【kǒu】中,行至此处的【de】过程 " 很狼狈 "。

主要原【yuán】因【yīn】不外【wài】乎 " 缺【quē】人 " 一事。目前,影眸已经在多类【lèi】别 3D 生成技术【shù】上取得了进展,下一步还计划【huá】推【tuī】出 "3D 生成大模型 "。

影【yǐng】眸科技将于【yú】 5 月【yuè】上线首个【gè】多模态跨平【píng】台 3D 搜【sōu】索引【yǐn】擎 Rodin,打【dǎ】通 Sketchfab 等多个 3D 资产平台,支持以文搜 3D、以【yǐ】图搜 3D 甚至以【yǐ】 3D 搜 3D。搜索引擎只【zhī】是 Rodin 的初级形态,影眸将把 Rodin 打造为 3D 生成大模型。

需要持续【xù】向前推进【jìn】,就【jiù】需要更多的工程化团队【duì】、技术美术和【hé】拥抱生成式 AI 的产品人才加入团队。作【zuò】为一个以研发【fā】为【wéi】背景主基调的团队,这【zhè】样的人才仍【réng】然【rán】紧缺。

" 人是万物【wù】的尺度【dù】," 吴迪表示道," 我们需要更多志同道【dào】合【hé】的人加入,共同推【tuī】动【dòng】 3D 领域的创新发展。"

可以看到,ChatAvatar 背后【hòu】技术从【cóng】无到【dào】有的【de】搭建,揭【jiē】示【shì】了一家【jiā】 AI 初创公【gōng】司的不断创新;而从这【zhè】家公【gōng】司【sī】对人才的渴望以小见大,更揭示【shì】着 AIGC 浪潮下,每一个细分领域想要从水下【xià】浮出水【shuǐ】面的心。

你愿意【yì】拥抱生成【chéng】式 AI,成为 Text-to-3D 领域的 Game Changer 吗?

联系作者

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

为你推荐

最新资讯

股票软件