ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越
- 2025-03-11 12:01:00
- 刘大牛 转自文章
- 511
论文项目主页: https://nirvanalan.github.io/projects/GA/
论文代码: https://github.com/NIRVANALAN/GaussianAnything
Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
个人主页: https://nirvanalan.github.io/
论文标题:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
利用编码器 (3D VAE Encoder) 将 3D 物体的 RGB-D (epth)-N (ormal) 多视图渲染图压缩到点云结构的 3D 隐空间。
在 3D 隐空间中训练几何 + 纹理的级联流匹配模型 (Flow Matching model), 支持图片、文字、和稀疏点云引导的 3D 物体生成。
使用 3D VAE Decoder 上采样生成的点云隐变量,并解码为稠密的表面高斯 (Surfel Gaussian)。
作为多视图编码器的输入。
。相较于使用稠密点云作为输入的方法,本文的 3D VAE Encoder 更高效自然地拥有来自多种输入格式的丰富的 3D 信息,并能够同时压缩颜色与几何信息。
, 本文中研究者认为该隐空间并不适合直接用于 3D diffusion 的训练。首先,
的维度
较高,在高分辨率下训练开销巨大。其次,multi-view latent
并非原生的 3D 表达,无法直观灵活地用于 3D 编辑任务.
将特征
投影到从输入物体表面采样得到的稀疏的 3D 点云 上。最终的点云结构化隐变量
被用于 diffusion 生成模型的训练。
,得到深层次特征。
。该设计同时支持不同细节层次 (Level of Details) 的 3D 资产输出,提升了本文方法的实用性。
其中
为多视图重建损失,
为 VAE KL 约束,
约束物体表面几何,
用于提升 3D 材质真实性。在实验数据上,研究者使用目前最大规模的开源 3D 数据集 Objaverse 来进行 VAE 训练,并公布了 DiT-L/2 尺寸的 VAE 预训练模型供用户使用。
发表评论
文章分类
联系我们
| 联系人: | 透明七彩巨人 |
|---|---|
| Email: | weok168@gmail.com |