今日视点【diǎn】：单卡 30 秒跑出虚拟 3D 老婆【pó】！Text to 3D 生成看清【qīng】毛孔【kǒng】细节的高精度数字人，无缝【féng】衔【xián】接 Maya、Unity 等制作工具

2024-9-21 15:19:07来源：量子位

ChatGPT 给 AI 行业注入一剂【jì】鸡血，一切曾经的不【bú】敢想，都成【chéng】为如今的基操【cāo】。

正持续进击的Text-to-3D，就被视为继 Diffusion（图像）和 GPT（文字）后【hòu】，AIGC 领域的下一个前沿热点【diǎn】，得【dé】到【dào】了前【qián】所未有【yǒu】的关注度。

这不，一【yī】款名为 ChatAvatar 的【de】产品低调公测，火速收揽超【chāo】 70 万浏览与关注，并登上【shàng】抱抱【bào】脸周热【rè】门（Spaces of the week）。

(资料图片仅供参考)

△ChatAvatar 也将支持【chí】从 AI 生成【chéng】的单视角 / 多【duō】视角原画生成 3D 风【fēng】格化角色的【de】 Image to 3D 技术，受到了广泛关【guān】注

有够酷的，感觉能很便捷地生成自己的数字孪生了。

由此吸引不少【shǎo】网友【yǒu】纷纷试用【yòng】并贡献脑洞【dòng】。有人拿这【zhè】款产品【pǐn】和【hé】 ControlNet 结合，发现效果细腻写实到有些【xiē】出乎意料。这款使【shǐ】用起来几乎零门槛【kǎn】的 Text-to-3D 工具名【míng】叫【jiào】ChatAvatar，由国内 AI 初创公司影眸科技团队打造。

据了【le】解，这是全【quán】球首款 Production-Ready 的 Text to 3D 产品【pǐn】，通过简【jiǎn】单的文本，例【lì】如一个明星的名字、或是【shì】某【mǒu】个想要的人物长【zhǎng】相，就【jiù】能生成影视级【jí】的 3D 超写实数字人资产。

效率也非常高，平【píng】均仅需【xū】 30 秒，就能做出一张以【yǐ】假乱【luàn】真【zhēn】的脸——甚至是【shì】你自己的。

未来，生成领域还将拓展到其他三维资产。

并且【qiě】该模型带有规整的拓扑【pū】、带有 4k 分【fèn】辨率【lǜ】的 PBR 材质【zhì】，同【tóng】时带有绑定，可【kě】以直接【jiē】接入 Unity、Unreal Engine 和 Maya 等制作引【yǐn】擎的生产管线中。

所以【yǐ】，ChatAvatar 到【dào】底是怎样一【yī】个 3D 生成【chéng】工【gōng】具？背后究竟用到了什么技【jì】术？

30 秒完成一次 " 画皮 "

亲身体【tǐ】验 ChatAvatar 的【de】玩法发现，可以【yǐ】说【shuō】是【shì】真 · 零门槛。

具体而言，只需以对话的形式，在官网上用大白话向 ChatBot 描述自己的需求，就能【néng】按需生成【chéng】 3D 人脸，并【bìng】覆盖一张贴合模型的真实 " 人皮【pí】 "。

对话全流程里，根据用户需求，ChatBot 会进行引导，尽可能细节地了解用户对所需模型的想法。

体【tǐ】验【yàn】过程中，我们向 ChatBot 描述了这样【yàng】一个【gè】想要生成的【de】 3D 形象：点击【jī】左侧的 Generate 按钮【niǔ】，平均 10s 不到，屏幕【mù】上就出现根据描述生【shēng】成的 9 种不同 3D 人脸的初始雏【chú】形。

随意选择其中一种后，会基于选择继续【xù】优【yōu】化模型和材质，最【zuì】后出现覆【fù】盖皮肤后的【de】模型【xíng】渲结果【guǒ】，并展现【xiàn】不同光影【yǐng】下【xià】的渲染效果——这些渲染【rǎn】在浏览【lǎn】器内实时完成：

用鼠标拖动，还能旋转【zhuǎn】头部，并放【fàng】大看【kàn】更细节的局部【bù】效【xiào】果，毛孔【kǒng】和痘痘【dòu】都清晰可见【jiàn】：值得【dé】一提的是，如果用户是个提示工程高手，直接在左侧框【kuàng】中输入【rù】 prompt，同样可以完成【chéng】生【shēng】成。

虽然 beta 版本还没上线【xiàn】发型功【gōng】能，但整体【tǐ】而言，最后生【shēng】成的【de】 3D 数字人资产与描述内容已经有【yǒu】高【gāo】匹配度。

官网【wǎng】上还陈列了许【xǔ】多 ChatAvatar 用户的【de】生成资产【chǎn】，不同【tóng】人种、不【bú】同肤色、不同年龄，喜怒哀乐，美丑胖瘦，各【gè】式相貌应有【yǒu】尽有【yǒu】。

总【zǒng】结一下 ChatAvatar 这款产品生成 3D 数字【zì】人【rén】资产的效果亮点：

首先是使用简便；其次是生成跨度大，且五官可改，还能生成与面部贴合的面具、纹身等，譬如这样：

根【gēn】据官方宣传片介绍【shào】，ChatAvatar 甚至可【kě】以进一【yī】步生【shēng】成超出人类范畴的【de】角色，如阿凡达等影视【shì】作品中的角色：最重【chóng】要的是【shì】，ChatAvatar解决了 3D 模型与传统渲染软件存在的兼容性问题。

这意味着，ChatAvatar 生成【chéng】的 3D 资【zī】产可以直接接【jiē】入【rù】游戏和【hé】影视生产流程。

当然，在正式接入工业流程之前，首轮公测，ChatAvatar 已经【jīng】吸引了数千名艺术【shù】家和【hé】专【zhuān】业美术人员参与，推特【tè】相关话【huà】题受到近百万的【de】浏览与【yǔ】关注【zhù】。

随随便便一条推文，浏览量都能破 50k。

积【jī】攒了大批 " 自来【lái】水 " 不是【shì】没有原因，看看 3D 的【de】爱因斯坦之脸，试【shì】问谁不说一句真的很像？要【yào】是和 ControlNet 结合，生成效果不亚【yà】于【yú】单反相片直出：已经有不少【shǎo】用户体验后【hòu】，开始畅想将这个【gè】 Text-to-3D 工具【jù】大规【guī】模应【yīng】用在游戏【xì】、影视等工【gōng】业应用上了。

据【jù】了解，用【yòng】户反馈会成为 ChatAvatar 团【tuán】队快速迭【dié】代和更新的重要依据，形成【chéng】数据飞轮，以便及时【shí】提供【gòng】更加【jiā】完整和【hé】贴近需求的功【gōng】能。

事实上，对于此【cǐ】前的【de】 3D 行业【yè】设【shè】计师或【huò】公司来说，大部分 AI 文【wén】字转【zhuǎn】 3D 应用并非【fēi】效果不好【hǎo】，但实际【jì】落地到工业设计流程上，还是有不少难度。

这次 ChatAvatar 能如此出圈【quān】，背后究竟有什【shí】么技术上【shàng】的原因？

符合产业要求的 3D 资产生成，究竟难在哪？

都说 AI 要替【tì】代人类，事实【shí】上仅仅就 Text-to-3D 领域，就并非【fēi】那么容易替代。

最大的难点，在于让 AI 生成的东西从标准上符合产业对 3D 资产的要求。

这里面的产业标准怎么理解？从【cóng】专【zhuān】业 3D 美工设【shè】计的视角【jiǎo】来说，至【zhì】少有三个【gè】方面——

质量、可控性和生成速度。

首先是【shì】质量。尤其是对于【yú】强调视觉效果的影视、游戏行业【yè】来说【shuō】，要想生成符【fú】合管线要求【qiú】的 3D 资产【chǎn】，拓扑规整度、纹理贴图的【de】精【jīng】度等 " 行业潜【qián】规【guī】则 "，都【dōu】是 AI 产【chǎn】品第一道必【bì】须迈过去的坎。

以拓扑结构的规整度为【wéi】例，这【zhè】里本质上【shàng】指的是 3D 资产布线【xiàn】的【de】合理度【dù】。

对于 3D 资【zī】产来说，拓扑的规整度，往往直【zhí】接影响物体的动画效果、修改处理【lǐ】效率和【hé】贴图绘【huì】制速度【dù】：

据【jù】行内 3D 美工设计介绍，手工重【chóng】拓扑的时间成本往往比制作 3D 模型本身【shēn】更高，甚【shèn】至【zhì】按倍【bèi】数【shù】以计。这意【yì】味着即使 AI 模型生【shēng】成的 3D 资【zī】产【chǎn】再炫酷，如果生成【chéng】的拓扑规整度达不到要求，成本就无法从根本上【shàng】得到【dào】降低。更【gèng】别【bié】提【tí】纹理精度。

△影眸科【kē】技的 ChatAvatar 项目在生成质量、速【sù】度以及标准【zhǔn】兼容上【shàng】相【xiàng】比先前的工【gōng】作都有明显【xiǎn】的提升

以目【mù】前游戏、影视【shì】行业【yè】普【pǔ】遍【biàn】要求的【de】 PBR 贴图为例，包含的反射率贴图【tú】、法线贴图等一系列贴图，相当于 2D 图像 PSD 文件的【de】 " 图层 "，是 3D 资产【chǎn】流水【shuǐ】线【xiàn】生产必不可少的条件之【zhī】一。

然而【ér】，目前 AI 生成的 3D 资产往【wǎng】往【wǎng】是【shì】一个 " 整体 "，少有能按【àn】要求【qiú】单独生成符合产业环境的 PBR 贴【tiē】图的效【xiào】果。

其次是可【kě】控性，对于生成式【shì】 AI 而言，如何让生成的内容更加 " 可控【kòng】 "，是【shì】 CG 产业【yè】对于这项【xiàng】技术提出的又一大要求【qiú】。

以【yǐ】大众所熟知的【de】 2D 产【chǎn】业为例，在 ControlNet 出【chū】现之【zhī】前，2D AIGC 行业一直处在一种 " 半摸【mō】黑前进 " 的【de】状【zhuàng】态。

也就【jiù】是说，AI 能生成指【zhǐ】定类别【bié】的物【wù】体画面，却【què】无法生成指定姿态的物体，生成效果全靠提示【shì】工程【chéng】和【hé】 " 玄学 "。

而在 ControlNet 出【chū】现后，2D AI 图像生成的【de】可【kě】控性获得了突飞猛进的提【tí】升，然而【ér】对于 3D AI 而【ér】言，要想生成对应效【xiào】果的资产，很大程【chéng】度上依旧得依【yī】靠专业的提示工程。

最【zuì】后是生成速度。相比 3D 美工设计而言，AI 生【shēng】成的优【yōu】势在于速度，然而如【rú】果 AI 渲【xuàn】染的速度和效【xiào】果无法与【yǔ】人工匹敌【dí】的话，那【nà】么【me】这项技【jì】术依旧无【wú】法给产业带来【lái】收益。

以当前在 AI 技术上颇受欢迎的 NeRF 为例【lì】，其产【chǎn】业化落地就面临速【sù】度【dù】和质量【liàng】的兼【jiān】容性难题。

在生【shēng】成【chéng】质量较高的情况下【xià】，基于【yú】 NeRF 的 3D 生成往往需要相当漫长的时间；然而【ér】如果追【zhuī】求速度【dù】，即使是 NeRF 生成的 3D 资产便【biàn】完全无法投【tóu】入产业使用。

但即使解决了这个问【wèn】题【tí】，如何【hé】在不损失精度的前【qián】提下让 NeRF 与【yǔ】传统【tǒng】 CG 行业的主流引擎兼【jiān】容仍【réng】然是一个巨大的问题。

从上面的产业标准化流程【chéng】不难【nán】发现，大部分 AI 文本【běn】转 3D 应用落【luò】地存【cún】在两大瓶颈：

一个【gè】是需要手【shǒu】动完成提【tí】示工程，对于非 AI 专业人士【shì】、或不【bú】了解 AI 的设计师来说不够友好；另一个是生成的 3D 资产往往【wǎng】不【bú】符合产业标准，即使再好看【kàn】也无【wú】法投入使用。

针对这两点【diǎn】，ChatAvatar 给出【chū】了两点具体有效的解【jiě】决方【fāng】案。

一方面，ChatAvatar 实现【xiàn】了【le】除手动【dòng】输入【rù】提【tí】示【shì】工【gōng】程外的第二条道路，也是【shì】更适【shì】合普通人【rén】的一条捷径：通过 " 甲方模式 " 直接对话描述需求【qiú】。

团队官方推特【tè】介【jiè】绍【shào】称【chēng】，为了实现这一特性，ChatAvatar 基于【yú】 GPT 的能力，开发了一种对话描述转人【rén】像【xiàng】特征的方法。

设计【jì】师【shī】只需要不【bú】断【duàn】和 GPT 聊天，描述自己想【xiǎng】要的 " 感觉 "：

GPT 就能自动帮忙完【wán】成提示工程，将结【jié】果输【shū】送给 AI：换【huàn】而言【yán】之，如果说 ControlNet 是 2D 行业的【de】 "Game Changer"，那么对于 3D 产业来说，能实现文本转 3D 的【de】 ChatAvatar，无异于【yú】行业的【de】游戏规则改【gǎi】变者。

另一方【fāng】面更为重【chóng】要，那【nà】就是 ChatAvatar 能完美兼容 CG 管【guǎn】线【xiàn】，即生成的资产在拓扑结构、可控【kòng】性和速度上【shàng】都符合【hé】产【chǎn】业要求。

同时【shí】，生成的模型【xíng】和高精度材质贴【tiē】图，还能【néng】在后期的渲染中达【dá】到极为逼真的渲【xuàn】染效果【guǒ】。

为【wéi】了实现这【zhè】样的效果，团【tuán】队为 ChatAvatar 自研了【le】一个【gè】渐进【jìn】式 3D 生成框架 DreamFace。

其中的关【guān】键，在于【yú】训练该模型用的底层数据，即影眸【móu】科技基于 " 穹顶光【guāng】场 " 采【cǎi】集到的世界首个大体量、高精度、多表情的人脸高精度数据集。

基于这个数据集，DreamFace 可以高效地完成产品级三维资产的生成，即生成的资产带有规整的拓扑、材质，带有绑定。

通过引入【rù】外部【bù】 3D 数【shù】据库，DreamFace 能够直接【jiē】输出符合 CG 流程【chéng】的资产。

△生成的资产驱动渲染的效果

上述两大技术瓶颈的解决【jué】，本质【zhì】上进一步加速了 AIGC 洪流下【xià】，" 生成 " 将取代 " 搜【sōu】索 " 的【de】时代【dài】趋势——

影眸团队认为，" 生成 " 将成为新一代数字资产的获取方式。

此前，我们需要【yào】找到一【yī】张符合需求的图【tú】片或者【zhě】资【zī】产【chǎn】时，通常会【huì】使用搜索引擎进行查询。

ChatAvatar 项目主页上展【zhǎn】示的巨【jù】大【dà】的 " 搜索框 " 和整齐的资产【chǎn】卡片，看似搜索【suǒ】引【yǐn】擎，但实际【jì】上是一种与搜索截然不【bú】同的资产查找方【fāng】式。

△ChatAvatar 项目主页

影眸科技 CTO 张启煊对此介绍：

以前，如【rú】果我们需要【yào】一【yī】张插【chā】图【tú】，可能要在多个图库中反复搜【sōu】索，或【huò】是【shì】通过【guò】 Photoshop 合成【chéng】、手绘【huì】等较复杂的方式才能【néng】得到结果。但在 Stable Diffusion 等技术出现后，你只需要通过文字描述想要【yào】的图像，就能直接生成符合需求【qiú】的结果。

这对于传统的资产【chǎn】库【kù】来说是一【yī】个【gè】巨大的冲击。而【ér】 ChatAvatar 的目标，正是用 3D 生成替代传统【tǒng】的【de】搜索式 3D 资产库。

AIGC 领域的下一个前沿热点

ChatGPT 一石激起千【qiān】层浪，进入 AI 2.0 时代【dài】之后，人【rén】们的目光也【yě】投向【xiàng】包含图像【xiàng】、视频、3D 等【děng】信息的多模态 AI。

仅就 3D 生成【chéng】领域而言【yán】，无论是影视还是游【yóu】戏行业，3D 内容生产和消费市【shì】场已【yǐ】经拥有足够大的规模，但【dàn】在【zài】制【zhì】作【zuò】层面【miàn】却因技术难度遭遇掣肘。

譬【pì】如，文本领域大行其道的 Transformer，在【zài】 3D 生成领域【yù】的使用还相【xiàng】对【duì】有【yǒu】限。

去年夏天，当文生图领【lǐng】域因 Diffusion Model 取得【dé】成绩后，人们开【kāi】始期待文字生成 3D有【yǒu】同样惊艳【yàn】的表现。一旦【dàn】生成式 AI 的 3D 创【chuàng】作技术成【chéng】熟，VR、视【shì】频等的内容创作都将起飞。

△扩散模型【xíng】 Midjourney5.1 生成的 " 梵【fàn】高风摄影【yǐng】 "

事实上，无论是科技巨【jù】头还是【shì】初创公【gōng】司，的确都在朝 Text-to-3D 这个【gè】方【fāng】向暗暗发力。

去年 9 月，谷歌发【fā】布【bù】了基【jī】于文本提示生【shēng】成 3D 模【mó】型的 FreamFusion，声称不需要 3D 训练数据【jù】，也不需【xū】要修改图像扩【kuò】散模【mó】型【xíng】。紧随其后，Meta 也【yě】推出可以从【cóng】文本【běn】一键生成视频的 Make-A-Video 模型。

后来的 Text-to-3D 的 AI 模【mó】型队伍中【zhōng】，还先后出现了英伟达【dá】 Magic3D、OpenAI 最【zuì】新开【kāi】源项目 Shap-E 等【děng】，今年 8 月将【jiāng】举【jǔ】办的计算机图形【xíng】顶会【huì】 SIGGRAPH 2023 所展示的论文，也有【yǒu】多【duō】篇与 Text-to-3D 有关。

影【yǐng】眸【móu】科技【jì】有关【guān】文本指导的渐进【jìn】式 3D 生成框架 DreamFace 的论文，就是其中之一。

而【ér】 ChatAvatar，也是目前为止最集【jí】中【zhōng】在 3D 数【shù】字人资产【chǎn】方【fāng】向的生成式模型产品。

其背后的 AI 初创公司影眸科技，2020 年孵化自【zì】上海科技大【dà】学 MARS 实验室，成立后【hòu】获【huò】得【dé】奇绩创坛与红【hóng】杉种子的两轮投资。

公司专注于专注于计算机图形学、生成【chéng】式 AI 的研究与产品化。2021 年，AIGC 还未掀起巨【jù】浪之【zhī】时，公司【sī】就已经推出国内首个【gè】 AIGC ToC 绘【huì】画应用 Wand，产品一度【dù】登顶【dǐng】 AppStore 分区【qū】榜【bǎng】首。

而这个颇具前瞻性，且已在业内小有名气的团队，平均年龄只有 25 岁。

将首个商【shāng】业化场景具体锚定在数字【zì】人后，ChatAvatar 是他【tā】们乘 AIGC 东风【fēng】在该【gāi】方向的【de】最新进展。

作为一【yī】个【gè】新推出的产品【pǐn】，ChatAvatar 在兼容性、完成度和【hé】精度等产【chǎn】品效果层面，都【dōu】超出【chū】了影眸团【tuán】队【duì】预期。然而【ér】在吴迪口【kǒu】中，行至此处的【de】过程 " 很狼狈 "。

主要原【yuán】因【yīn】不外【wài】乎 " 缺【quē】人 " 一事。目前，影眸已经在多类【lèi】别 3D 生成技术【shù】上取得了进展，下一步还计划【huá】推【tuī】出 "3D 生成大模型 "。

△影【yǐng】眸科技将于【yú】 5 月【yuè】上线首个【gè】多模态跨平【píng】台 3D 搜【sōu】索引【yǐn】擎 Rodin，打【dǎ】通 Sketchfab 等多个 3D 资产平台，支持以文搜 3D、以【yǐ】图搜 3D 甚至以【yǐ】 3D 搜 3D。搜索引擎只【zhī】是 Rodin 的初级形态，影眸将把 Rodin 打造为 3D 生成大模型。

需要持续【xù】向前推进【jìn】，就【jiù】需要更多的工程化团队【duì】、技术美术和【hé】拥抱生成式 AI 的产品人才加入团队。作【zuò】为一个以研发【fā】为【wéi】背景主基调的团队，这【zhè】样的人才仍【réng】然【rán】紧缺。

" 人是万物【wù】的尺度【dù】，" 吴迪表示道，" 我们需要更多志同道【dào】合【hé】的人加入，共同推【tuī】动【dòng】 3D 领域的创新发展。"

可以看到，ChatAvatar 背后【hòu】技术从【cóng】无到【dào】有的【de】搭建，揭【jiē】示【shì】了一家【jiā】 AI 初创公【gōng】司的不断创新；而从这【zhè】家公【gōng】司【sī】对人才的渴望以小见大，更揭示【shì】着 AIGC 浪潮下，每一个细分领域想要从水下【xià】浮出水【shuǐ】面的心。

你愿意【yì】拥抱生成【chéng】式 AI，成为 Text-to-3D 领域的 Game Changer 吗？

— 联系作者—

— 完—

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

关键词：

今日视点【diǎn】：单卡 30 秒跑出虚拟 3D 老婆【pó】！Text to 3D 生成看清【qīng】毛孔【kǒng】细节的高精度数字人，无缝【féng】衔【xián】接 Maya、Unity 等制作工具

相关阅读

为你推荐

最新资讯

股票软件