好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限
- 2025-04-18 17:51:00
- 刘大牛 转自文章
- 268

在日常生活中,SVG(可缩放矢量图形)被广泛应用于网页设计、图标、徽标等领域。SVG 图形因其可缩放性和清晰度,在以下场景中得到了广泛应用:
网页设计:用于制作响应式图标、按钮和装饰元素,确保在不同设备上显示清晰。
品牌标识:企业徽标、品牌图形等,保持高质量的视觉效果。
用户界面设计:应用程序和网站的界面元素,如导航栏、菜单图标等。
教育与培训材料:用于制作插图、流程图和示意图,帮助信息传达。
然而,创建这些图形通常需要专业的设计技能和工具。对非专业人士而言,存在一定的门槛。因此,开发自动化的 SVG 设计与生成工具显得尤为关键。
现有基于优化的方法通过优化可微分的矢量图形光栅化器,迭代地调整 SVG 参数。这些方法在生成 SVG 图标方面有效,但在处理复杂样本时计算开销较大,且生成的输出缺乏结构,存在冗余的锚点。
在现有自回归 SVG 生成方法中,存在两个主要局限性:
上下文窗口长度限制:由于模型只能处理有限长度的输入序列,这限制了其生成复杂 SVG 内容的能力,现有自回归方法利用 Transformer 模型或预训练的大型语言模型(LLM),直接生成表示 SVG 的 XML 参数或代码,然而复杂 SVG 需要的上下文长度将超出现有 LLM 上下文窗口长度,从而限制了复杂 SVG 的生成;
复杂 SVG 数据匮乏:缺乏包含复杂 SVG 内容的大规模数据集,限制了模型的学习和生成能力。现有数据集通常包括 icon 级别的 SVG 或者较为简单的插画 SVG,目前角色复杂度级别的 SVG 数据集仍然是空缺。
项目中, OmniSVG 引入 SVG 参数化的表达方式,自回归地生成高质量、复杂的 SVG。它通过多种生成模式展示了非凡的多功能性,包括文本到 SVG、图像到 SVG 和角色参考生成 SVG,使其成为适用于各种创意任务的强大而灵活的解决方案。

论文标题: OmniSVG: A Unified Scalable Vector Graphics Generation Model
论文作者:Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
作者单位:复旦大学、阶跃星辰
论文地址:https://arxiv.org/pdf/2504.06263
项目主页:https://omnisvg.github.io/
代码地址:https://github.com/OmniSVG/OmniSVG
HuggingFace:https://huggingface.co/OmniSVG
值得一提的是,OmniSVG 在发布的当天就成为 Huggingface daily paper upvoted 的第一名,并成为当周排名第二热门的论文。OmniSVG 在 GitHub 上线 7 天,已经斩获了 1.3k star,在国外媒体获得广泛关注。

Huggingface当周第二热门论文

让我们先来看一些生成效果:



1.统一的多模态复杂 SVG 生成框架
OmniSVG 是 首个利用预训练视觉语言模型(VLM)进行端到端多模态复杂 SVG 生成的统一框架。通过将 SVG 的坐标和命令参数化为离散的标记,OmniSVG 将结构逻辑与低级几何信息解耦,缓解了代码生成模型中常见的 「坐标幻觉」问题,生成生动且多彩的 SVG 结果。并且得益于下一标记预测的训练目标,OmniSVG 能够在给定部分观测的情况下,生成多样化的 SVG 内容。与传统的自回归 SVG 生成方法相比, OmniSVG 能够处理长度高达 3 万个token 的 SVG,促进了复杂高质量 SVG 的生成。基于预训练的 VLM,OmniSVG 能够理解视觉和文本指令,合成可编辑的高保真 SVG,适用于从图标到复杂插图和动漫角色等多种领域。

OmniSVG 基于预训练的视觉语言模型 Qwen2.5-VL 构建,并集成了 SVG 分词器。该模型将文本和图像输入分词为前缀分词,而 SVG 分词器则将矢量图形命令编码到统一的表示空间中。

2.MMSVG-2M:包含 200 万个 SVG 样本
项目还开源了 MMSVG-2M 数据集和 MMSVG-Bench 评测平台。MMSVG-2M 是一个大规模的 SVG 数据集,包含了 200 万个 SVG 样本,涵盖了网站图标、插图、平面设计、动漫角色等多种类型。MMSVG-2M 数据集的 SVG 样本,涵盖了网站图标、插图、平面设计、动漫角色等多种 SVG 类型,如下图所示。

3. 实验结果
为了进一步推动 SVG 生成技术的发展,MMSVG-Bench 评测平台专注于以下三个主要任务,分别是 文本转 SVG、图像转 SVG 以及角色参考生成 SVG。
论文在 MMSVG-2M 数据集(图标、插图和角色)上将所提出的方法与 SOTA 文本转 SVG 和图像转 SVG 均进行了比较。OmniSVG 在指令遵循性和生成的 SVG 的美观性方面均优于现有的最佳方法。

OmniSVG 和最先进的文本转 SVG 任务的比较结果。

OmniSVG 和最先进的图像转 SVG 任务的比较结果。

通过使用自然角色图像和 SVG 数据对进行训练,OmniSVG 能够通过图像角色参考生成角色 SVG。
结论与局限性
综上所述,OmniSVG 是一种统一的可缩放矢量图形(SVG)生成模型,利用预训练的视觉 - 语言模型(VLM)进行端到端的多模态 SVG 生成。通过将 SVG 命令和坐标参数化为离散标记,OmniSVG 有效地将结构逻辑与低级几何信息解耦,提高了训练效率,同时保持了复杂 SVG 结构的表现力。此外,OmniSVG 在多个条件生成任务中表现出色,显示出其在专业 SVG 设计工作流中应用的巨大潜力。
不过,在推理过程中,OmniSVG 会为复杂样本生成数以万计的标记,这不可避免地会导致相当长的生成时间。同时,在可预见的未来,将 SVG 风格的图像和来源更丰富的自然图像,融入协同训练工作流,有望提升模型对输入图像风格的鲁棒性。
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |