ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越

2025-03-11 12:01:00
刘大牛
转自文章
259
图片
兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。


尽管 3D 内容生成技术取得了显著进展,现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。


在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的 基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything,针对现有问题引入了一种交互式的点云结构化潜空间,实现了可扩展的、高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。


该方法在 Objaverse 数据集上进行了大规模训练,并在文本、图像、点云引导的 3D 生成任务中超越了现有的原生 3D 生成方法。


目前,项目所有模型和测试/训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度 (AMP) 训练、flash-attention 以及 BF16 等加速技巧。
图片
  • 论文项目主页: https://nirvanalan.github.io/projects/GA/

  • 论文代码: https://github.com/NIRVANALAN/GaussianAnything

  • Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D

  • 个人主页: https://nirvanalan.github.io/

  • 论文标题:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

图片
研究背景


近年来,以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了快速的进展,在新视角合成、3D 物体生成和编辑上取得了令人满意的效果。在统一图片/视频生成的 LDM 框架的基础上,近期关于原生 (native) 3D diffusion model 的研究也展现了更优的泛化性,更快的生成速度与更好的可编辑性。


然而,一些关于原生 3D diffusion 模型的设计挑战仍然存在: (1) 3D VAE 输入格式,(2) 3D 隐空间结构设计,(3) 3D 输出表征选择。


为了解决上述问题,研究者提出基于 Flow Matching 的可控点云结构化隐空间 3D 生成模型 GaussianAnything,支持多模态可控的高效、高质量的 3D 资产生成。


方法


方法概览图 (3D VAE 部分):
图片
研究者提出的 3D-aware flow matching 模型主要包含以下三个部分:
  1. 利用编码器 (3D VAE Encoder) 将 3D 物体的 RGB-D (epth)-N (ormal) 多视图渲染图压缩到点云结构的 3D 隐空间。

  2. 在 3D 隐空间中训练几何 + 纹理的级联流匹配模型 (Flow Matching model), 支持图片、文字、和稀疏点云引导的 3D 物体生成。

  3. 使用 3D VAE Decoder 上采样生成的点云隐变量,并解码为稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE
结构化的高效、高质量 3D 压缩


高效的 3D 物体编码


首先,和图片/视频 LDM 模型类似,3D 隐空间生成模型也同样需要与之适配的 3D VAE 模型,且该模型的效果决定了 3D 生成模型的上限。因此,研究者采取了以下设计来提升原生 3D VAE 的性能:


在 3D 编码器端,相较于目前普遍使用的基于稠密点云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者选择使用多视图 RGB-D (epth)-N (ormal) 渲染图来作为输入 3D 物体的等效表达,并联合 Plucker 相机编码一起共 15 维信息 图片作为多视图编码器的输入。


为了更好地编码多视图输入,相较于直接使用图像/视频领域常见的 U-Net 模型,研究者使用基于 3D-attention 的 Transformer [3] 结构来处理多视图输入 图片。相较于使用稠密点云作为输入的方法,本文的 3D VAE Encoder 更高效自然地拥有来自多种输入格式的丰富的 3D 信息,并能够同时压缩颜色与几何信息。


基于 3D 点云结构化隐空间表达


虽然上述过程已经将 3D 物体压缩为 multi-view latent 图片 , 本文中研究者认为该隐空间并不适合直接用于 3D diffusion 的训练。首先, 图片的维度 图片较高,在高分辨率下训练开销巨大。其次,multi-view latent  图片并非原生的 3D 表达,无法直观灵活地用于 3D 编辑任务.


为了解决上述缺陷,研究者提出在点云结构的 3D 隐空间表达进行 3D diffusion 的学习。具体地,他们使用 Cross Attention 操作 图片将特征 图片投影到从输入物体表面采样得到的稀疏的 3D 点云 上。最终的点云结构化隐变量 图片被用于 diffusion 生成模型的训练。


高质量 3D 高斯上采样/解码


在得到点云结构化隐变量后,研究者首先使用 3D Transformer 结构对其进一步解码 图片,得到深层次特征。


在此基础上,他们通过 K 个上采样模块将低分辨率点云逐步上采样至高分辨率高斯点云,其中每一个模块都由 transformer 实现:  图片。该设计同时支持不同细节层次 (Level of Details) 的 3D 资产输出,提升了本文方法的实用性。


与此同时,该上采样设计能够有效保证较高的高斯利用率 (98% 以上),而传统多视图方法 (LGM) 由于视角重叠问题仅有 50% 的高斯利用率。


VAE 模型训练


本文的 3D VAE 模型可端到端学习,并同时使用 2D Rendering loss 和几何 loss 共同监督:
图片其中 图片为多视图重建损失, 图片为 VAE KL 约束, 图片约束物体表面几何, 图片用于提升 3D 材质真实性。在实验数据上,研究者使用目前最大规模的开源 3D 数据集 Objaverse 来进行 VAE 训练,并公布了 DiT-L/2 尺寸的 VAE 预训练模型供用户使用。


Cascaded 3D Generation with Flow Matching
级联 3D 生成框架
图片
在第二阶段,研究者在训练完成的 3D VAE space 上进行 Flow Matching 训练。在使用文本/单目图像作为输入条件时,他们均使用 Cross Attention 进行条件信息编码并送入 DiT 框架中进行训练。同时分为两个阶段单独学习几何 (稀疏点云) 和纹理 (点云结构的低维特征)。


具体而言,研究者首先训练一个稀疏点云上的 Flow Matching 模型:
图片
在此基础上,研究者将点云输出作为条件信息进一步输出细节纹理特征:
图片
该生成范式有效的支持了几何 - 纹理解耦的生成与编辑。


实验结果


Image-conditioned 3D Generation | 图生 3D


考虑到 3D 内容创作更多采用图片作为参考,本文方法同样支持在给定单目图像条件下实现高质量 3D 生成。相比于多视图生成 + 重建的两阶段方法,本文方案在 3D 生成效果、多样性以及 3D 一致性上有更稳定的表现:


数值结果:
图片
可视化结果:
图片
Text-conditioned 3D Generation | 文生 3D


在大规模 3D 数据集 Objaverse 上,研究者基于 Flow Matching 的 3D 生成模型支持从文本描述直接生成丰富,带有细节纹理的高质量 3D 资产,并支持 textured-mesh 的导出。生成过程仅需数秒即可完成。可视化对比结果如下:
图片
在数值指标上,GaussianAnything 同样优于投稿时最优的原生 text-conditioned 3D 生成方法。
图片
更多内容请参考原论文与项目主页。


Reference
[1] CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets. TOG 2024.
[2] CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner. arXiv 2024.
[3] Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations. CVPR 2022.
工程 GaussianAnything ICLR 2025
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com