在 AI 生成的这些视频中,你能判断出哪个是 Sora 生成的吗?
左为 Sora 生成,右为国产智象多模态大模型生成。
12 月 10 日,OpenAI 发布了 Sora。但与 10 个月前的预览效果相比,正式发布并没有带来预期的震撼效果。许多国产模型在某些方面甚至超越了 Sora。
与此同时,关于图像、视频生成模型应用前景的问题也被再次提起。记得 2 月份 Sora 刚发布预览版的时候,国内 AI 公司就是否跟进这一方向出现了一波分歧 —— 有人认为这个方向有着广阔的应用前景,值得做;但也有人认为这类模型的商业化要五年甚至十年,因此坚持不做。10 个月后,我们看到,那些选择去做的公司不仅在模型效果上有所突破,也确实摸索出了一些当前就可以落地的场景。
贡献上述 demo 的
智象未来(HiDream.ai)就是这样一家公司。
智象未来成立于 2023 年 3 月,核心团队在几年前就开始研究视频、图像生成模型。如今,他们的
智象多模态生成大模型已经更新到了 3.0 版本,还发布了理解大模型 1.0。
该公司 CTO 姚霆告诉人工智能站,其实在视频、图像生成领域,「
我们不需要等到基础模型达到 100 分才去做应用。在现有的基础模型能力之上,如果你能找到真正解决用户痛点的场景,并在应用上做得很深,真正做到端到端的 95 分以上,用户就会买单。」
基于这一发现,智象未来对他们的模型做了很多场景驱动的优化,特别关注基础模型在上层应用中的表现,去解决用户「最后一公里」的问题,同时也在探索效果更好、效率更高的模型架构。我们将在下文中详细探讨这些内容。
什么样的模型才是用户真正需要的?姚霆在采访中分享了他从用户反馈中观察到的现象。
他提到,「我们和一些 90 后、00 后的年轻人聊过,他们认为目前 AI 生成的一分钟单镜头视频,他们根本不会看,因为觉得有些无聊。但一些简单的、带特定 IP 的动态壁纸,却能吸引他们付费。」这些应用并不复杂,「但他们的要求很精准 ——IP 的每个细节不能变,比如五官。」
B 端场景也类似,比如需要将商品 logo 印在衣服上,要求效果自然、直接可用。
这些现象揭示了模型和应用之间的 gap:研究人员以为他们要把基础模型做到 100 分才会有人买单,因此拼命让模型参加各种能彰显通用能力的「考试」。而用户其实只想要一个在解决自己特定问题上能达到 95 分的模型。现阶段,这样的模型并不好找。这种 gap 让姚霆意识到,从场景需求的角度出发去优化模型,才有可能做出真正好用的产品。
智象多模态生成大模型 3.0 就是在这样的理念下被打磨出来的。总的来说,它实现了三大方面的优化:
一是画面质量和相关性提升;
二是镜头运动和画面运动更可控;
三是特色场景下的生成效果提
升。
对于图像生成模型来说,过硬的画面质量和遵循提示的能力是模型落地的基础。为了在这些方面实现提升,智象未来在技术架构上引入了 Diffusion Transformer (DiT) + Autoregressive model (AR) 的混合架构。
DiT 的优势无需多言。在 Sora 发布后,它已经成为视觉生成模型的主流架构。不过与此同时,也有不少学者在研究基于 AR 的视觉生成路线,因为这类模型的可扩展性已经在语言模型中得到了验证。而且,它们可以通过一个 token 化的过程打通语言、视觉等多种模态,把生成和理解统一在一个框架内,提升生成模型的可控性(如 IP 保持、提示遵循)。
考虑到两种架构各有其优点和局限性,智象未来团队选择将二者融合,使得新架构在保持 DiT 中连续图像编码优势的同时实现自回归过程和轻量化扩散过程结合。最终,除了提高生成质量和可控性,这种融合还带来了一个好处,就是模型推理速度的提升,这可以让用户更快地得到生成结果。
下图显示了智象多模态生成大模型与其他模型在图像生成效果上的差异。可以看到,在画面设计方面,智象多模态生成大模型的角色设计明显更加立体、生动,例如愤怒角色带有火焰效果,快乐角色微笑明显。在与提示的相关性方面,智象多模态生成大模型的生成效果最贴合文字描述,各个角色的情绪特征都表达得准确且生动。架构升级所带来的提升一目了然。
与此同时,智象多模态生成大模型的视频生成质量也有所提升,因为智象未来延续了之前高效的时空建模方法,并进一步增大了 DiT 模型的规模,从而实现了对复杂高清细节和逻辑关系的时空建模,提升了每帧的画面质量和整体相关性。
广义的视频运动本质上包含了复杂的全局镜头运动和局部画面运动。当前的很多模型都存在两种运动的不协调问题(想象一下,一个人在小路上往前走,后面的山却没有逐渐往后退),从而影响了画面的真实感和可用性。
为了解决这个问题,智象未来把镜头运动和画面运动进行联合训练,强化了对于影视级别镜头的学习和模拟,同时也提升了画面本身运动的自然度。
如下面这几个视频所示,智象多模态生成大模型能够处理非常复杂的镜头运动,如平移、缩放、旋转等,而且在镜头变化的同时,主体也在发生合理的变化(如蚂蚁随着镜头变焦而缩小),且主体动作非常连贯、丝滑(如旋转镜头中车的运动)。
「所有真实的视频都需要这样的(运镜水平)。哪怕是一个简单的宣传片,它也要过渡自然,里面有一些运镜手法。再延伸一下,运镜手法其实是可控性的一种,生成内容要遵从给定的运镜指令,不然的话这个工具就没法用了。」在提及这一方向的优化动机时,姚霆解释说。
用户真实的开放场景是最考验模型泛化性和垂域特色的,智象未来利用多场景学习放大多模态生成大模型的产品能力特色,实现不同特色场景下的生成效果提升,完成了用户「最后一公里」的需求。
以营销场景下的 IP 迁移功能举例(如商品 logo 等),虽然场景很简单,但要想达到让用户付费的水平,必须做到端到端的 95 分以上,在技术上就需要更多地去考虑如何兼顾用户侧生成内容的真实性以及最大化 IP 保持的程度。
如下图所示,在将 logo 迁移到商品上之后,智象多模态生成大模型能够做到毫不突兀地将其与商品融为一体,而且在需要适当变形的情况下(比如右下角的咖啡杯),模型也能「随机应变」,同时保持 IP 与原图完全一致,做到了拿来即用。
在视频生成中,智象多模态生成大模型也能把IP(例如上述生成的带logo的咖啡杯)自然地嵌入广告场景。
在多模态大模型中,理解与生成是相辅相成的。因此,智象未来在生成大模型 3.0 的训练中加入了理解增强。同时,他们还专门推出了一个新的理解大模型 —— 智象多模态理解大模型 1.0。这个模型通过对物体级别的画面建模以及事件级别的时空建模,实现了更精细、准确的图像与视频内容理解。
此外,这一理解大模型还可以进一步服务于理解增强的多模态生成技术,搭配多模态生成大模型实现多模态检索 + 多模态内容编辑与生成的创作平台。
这个平台的运行效果如下:你只需输入文字描述,即可在系统中搜索到可用的视频片段,并通过文字交互的形式进行编辑。在现实中,基于真实视频进行二次创作的操作需求可能比从头开始制作视频更为常见,尤其是在一些以 IP 为核心的二次创作场景中。因此,基于智象多模态理解大模型 1.0 和多模态生成大模型 3.0 打造的这个系统有望大幅降低创作门槛,提高创作效率。
对于做生成式模型的公司来说,最近发生了一些值得关注的趋势。一方面,所有人都在讨论「scaling law 是否到头,预训练是否即将终结」。另一方面,多模态大模型正在被寄予更高的期望,有人认为这类模型有望展现出新的 scaling law,并最终通往 AGI。
当谈到多模态大模型技术未来是否就是 AGI,他有着更接地气的观点,「
我们倾向于在基础模型的通用性和对垂直应用的泛化性之间找一个平衡。AGI 不是我们的目标,应用才是。」
这样的理念帮助他们在商业化方面取得了亮眼的成绩。据悉,该公司目前已累计服务了全球一百多个国家和地区的一千多万个人用户和四万多家企业客户,其中包括中国移动、中国联通、人民网、央视网、联想、科大讯飞、商汤、微软、上影、华策、彩讯、捷成世纪等头部企业。鉴于多模态大模型的应用尚处于起步阶段,这样的成绩并不多见。
姚霆表示,未来,他们会继续坚持这一路线,以更接地气方式致力于用户最后「一公里」的问题,让 AIGC「飞入寻常百姓家」。
智象未来科技有限公司是全球领先的多模态生成式人工智能初创企业。公司自主研发的智象多模态大模型是超百亿级别的大模型,拥有目前行业中最丰富的多模态版权语料库,具备强大的视觉内容生成与理解能力,同时是首批完成模型和算法双备案的多模态大模型。
近日,
智象未来获得数亿元人民币 Pre-A 和 A 轮融资。已完成的 Pre-A 轮融资,领投方是在文化科技领域内知名的投资机构敦鸿资本。正在进行的 A 轮融资,领投金额过亿元人民币,领投方系以合肥产投为主的国资基金,跟投方有安徽省人工智能母基金,湖北省长江电影集团有限公司等,目前还有知名战略资本正在持续推进当中。