浙大_蚂蚁集团推出MaPa：文本生成超真实3D模型

导读：

潮新闻客户端记者陆芳月日晚为期天的五一档正式落下帷幕据猫眼专业版数据截至月日时五一档总票房亿总场次万刷新影史五一档场次纪录声明本文来自于微信公众号开放社区作者开放社区授权转载发...

潮新闻客户端记者陆芳 5月5日晚，为期5天的五一档正式落下帷幕。据猫眼专业版数据，截至5月5日21时，2024五一档总票房15.19亿，总场次240.5万，刷新影史五一档场次纪录。 ....

声明:本文来自于微信公众号 AIGC开放社区（ID:AIGCOPEN），作者:AIGC开放社区，授权转载发布。

浙江大学、蚂蚁集团、深圳大学联合推出了创新模型。

与传统纹理方法不同的是，MaPa通过文本能直接生成高分辨率、物理光照、超真实材质的，可以极大提升游戏、VR、AR、影视等行业的开发效率。

研究人员在多个知名平台对MaPa进行了综合测试。结果显示，在无参考图像的情况下MaPa生成的模型材质、分辨率、局部细节，比TEXTure、Text2tex、Fantasia3D等模型的效果更好。

论文地址:https://arxiv.org/abs/2404.17569

MaPa功能展示

分段图像生成

为了更好地还原用户的文本提示和提升模型质量，MaPa在生成的过程中会将3D网格细分为多个细小的分段。该过程有点类似将一幅画作分解成多个小碎块，这样每块的细节都能够独立处理，以便于后续上色和材质的精细调整。

然后，MaPa会将这些3D分段投影到2D空间中生成2D图像。为了获得最佳的2D分割图像，MaPa需要选择一个合适的视角。

通过均匀采样一系列视角，并选择能够产生最多2D分段的视角作为起始视角，以确保生成的2D图像能够尽可能多地捕捉到3D分段的细节。

在2D图像生成中，MaPa使用了ControlNet，这是一个预训练的2D扩散模型，能够根据给定的条件生成相应的2D图像。研究人员对ControlNet进行了微调，使其能够适应特定的分段条件，从而生成与3D分段更加对齐的2D图像。

3D材质分组

通常在3D模型的材质生成过程中有一个难题，就是该如何将不同的材质部分有效地组织和管理。而MaPa通过使用“材质分组”模块，来自动智能识别和分组相似材质的3D分段，从而提升渲染的质量，同时又减少了后续的优化流程。

MaPa使用了GPT-4v模型进行材质分类。GPT-4v不仅识别准确率高，对于用户的文本语义理解能力也很强，可以精准提炼出文本中的特殊材质。

此外，材质分组还内置了一个材质颜色相似性分析模块，通过反射率估计网络来评估不同分段的颜色，并在CIE颜色空间中进行比较。

如果两个分段的材质颜色足够接近，就会被归为同一组进一步提升材质的一致性。

材质图优化

对材质分好组之后，MaPa会从一个预建的材质图库中检索最相似的材质图作为初始值，再通过可微渲染模块对材质图的参数进行优化，使得渲染图像尽可能接近生成的3D模型。

在渲染的过程中MaPa使用了DiffMat v2框架，能够将材质图转换为纹理空间映射，例如，反照率图、法线图和粗糙度图等，使得选定的材质图参数使其更贴近生成的3D模型。

材质图优化模块还包括一个可微分渲染器，能够根据材质图渲染出2D图像，并与生成的3D模型进行比较，通过最小化两者之间的差异来优化材质图参数。这种方法不仅提高了材质的真实感，还保持了渲染的效率。

由于3D模型的架构比较复杂，一次难以生成精准生成。所以，MaPa使用了连续迭代的方法，可以为模型的每个部分生成一致且真实的材质，即便是那些非常复杂的3D模型架构也没问题。