让我们先回望 2024,从年初的 Sora 开始,几乎每个月都有 AI 热点新闻出现,长文本、多模态、具身智能、编程助手、思维推理、Agentic System、大模型训练优化等,让人目不暇接。相比 2023 年 AI 进展集中在大语言模型上,2024 年可谓是百花齐放,无论是深度和广度都出现了飞跃。显然,即使没有 GPT-5 的发布,这仍然是 AI 技术大爆发的一年。而在这么多进展里,有四项进展值得重点关注。
2.1 视频生成
Sora 的出现意义重大,是视频生成领域的一个重要转折点。在 Sora 之前,行业对视频生成已多有研究,但只停留在学术研究层面,效果差强人意,没法达到商业化服务的水准。Sora 展示了利用 DiT 可扩展架构的有效性,吸引了全球同行们快速跟进,推动视频生成从学术研究到工业级应用的重大跨越,国内也出现了可灵、海螺、通义万相、混元、豆包等优秀的视频生成模型。
视频生成模型的突破意义不仅在于推动内容生产方式的变革,也在于展现了可扩展架构的生成模型在视觉方向的巨大潜力。自然语言数据是人类知识以文字形式的数字化记录,所以自然语言大模型是知识的压缩,可以通过大语言模型来逼近从而超越人类的智能。同样,图像 / 视频是对环境和物体的数字化,也包含知识本身的展现。例如,球体的下落是物理规律的呈现、投篮是人类操作技能的展现等。所以不仅仅大语言模型,视频大模型也是通往 AGI 的重要组成要素。随着图像 / 视频基础模型的性能提升,特别是 SOTA 级别开源模型的丰富,常见视觉任务大都会围绕生成式基础模型重新构建,大一统的视觉任务架构也会出现。另外,传统视觉相关的仿真也逐步会和视频生成模型深入融合,从而重塑新一代的仿真链路,例如世界模型可以看做是其中一个方向。而基于仿真和模拟的技术方向,例如机器人,也会因为视频生成模型的成熟发展速度大大加快。在一些垂直领域,例如医疗和微观组织研究等,数据缺乏的问题也会因为视频生成模型找到新的解决途径,从而加快相关领域的突破。
视频生成技术的快速迭代促进各类内容工具的涌现,例如达摩院推出寻光 AI 视频创作平台,用 AI 重塑视频工作流,释放行业创造力。
Agent 的重要性在于,它依托基础模型和软硬件互联协议,会给人机交互方式和系统架构带来根本性的变革。历史上每一次人机交互的变化都带来了系统级的变革,就像键盘鼠标之于 PC 互联网、手机触屏之于移动互联网。
目前我们的系统设计还是基于鼠标点击或者手指触控交互的嵌套式图形界面系统。这一次 AI 的突破带来语言 / 语音 / 视觉等多模态信息为交互媒介的人机交互变革。Agent 不仅会大大丰富系统和应用的广度,也将会在多模态交互逻辑下大大缩短应用使用的链路和构造逻辑,从而引发系统在 AI 时代的重构。这将是个人电脑和智能手机视窗系统诞生以来最大的一次实质性变革。传统操作系统将在人工智能操作系统的牵引下和 AI 深度融合,从而诞生在 AI 时代更加扁平、更加连接开放、更加自动化的新型操作系统和应用范式。
过去一年编程助手发展迅速,国外像 Github Copilot、Cursor、Windsurf、Bolt,国内如阿里巴巴的通义灵码以及字节的豆包 MarsCode 等相继涌现。可以预料编程助手在新的一年里将会取得实质性进展,并成为最快成功商业化的 AI 产品之一。
2.4 具身智能
我们可以粗略将研究机器人智能的 AI 技术称之为具身智能。多模态大模型可以视为是机器人的知识技能,具身智能大模型 (目前还没有共识的范围定义) 可以看作是机器人的操作和移动技能。
AI 驱动的机器人是物理智能体,既可以决定人类利用工具的生产力水平,又可以直接决定社会生产效率和国民生产总值,所以至关重要。特别是人形机器人,可以看作是人的物理化,他可以超越工具属性本身,作为人类社会智能体的一员发挥作用,所以人形机器人可以拓展社会的运作模式和维度。
在具身算法上,谷歌、UC Berkeley、清华、字节等机构都发表了不同架构的具身智能大模型,初步验证了 Scaling law 在机器人方向上的有效性。并为其引入多模态融合等新维度,让业界看到了机器人技术突破的希望。仿真上,英伟达正在推动机器人仿真系统的工业化落地应用,开源仿真系统也在快速迭代,为机器人的仿真和批量数据生产打下基础。数据上,行业内的数据生产标准和基础设施也在发展中,智元开源的真机数据集也已经达到百万级别的体量。计算芯片上,英伟达也会在 2025 年量产针对人形机器人的端侧芯片和开发板,使 AI 在机器人的端侧开发更加便利和高效。硬件上,特斯拉正在推动人形机器人的量产,这将促使机器人本体供应链走向成熟,从而也会使硬件本体成本大幅下降。所以综合这几个维度来看,具身智能已站在新一轮爆发周期的起点上。但是机器人商业化的路径存在较大不确定性,和机器人形态以及对应的技术成熟度都有直接关系。
三是 AGI 路径。如开篇所述,在开放式环境中自我学习和进化的智能机器人是实现 AGI 的路径,将会使智能算法得到质的飞跃。由于机器人本身是可编程物理智能体,所以自我进化也将会带来人类对于智能本身理解的升华,会大大拓展人类本身智能的边界。所以从 AI 的视角去观察,用在固定工业产线和不与人交互场景的机器人和与人交互的消费级机器人是完全两种机器人。消费级人形机器人是 AI 时代最重要的智能体,人类可以借助人形机器人进入一个全新的人机协作的智能时代,从而开启人类使用工具的新纪元。
3. AI 突破的三个底层逻辑
回顾了 2024 年 AI 几个方面的进展,我们再讨论下 AI 发展的三个基本逻辑,即 Scaling law、Transformer 架构 (泛指 Transformer-like 的架构) 和生成模型。这三个方面相互交织,我们逐项讨论下内在的原理和逻辑,便于把握 AI 发展的底层规律。
3.1 Scaling law 迈向纵深
Scaling law 是 GPT 等大语言模型快速发展的底层逻辑,更多的数据、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推动了 Sora 等视频生成模型的技术突破的逻辑遵循,利用更有利于规模化扩展的算法架构。虽然 Sora 并未开源或公开算法细节,但其技术报告公开了算法架构和技术路线,这使得领域内可以快速跟进,例如可灵。他们甚至实现比 Sora 更好的效果、更快的线上服务,再次在视频生成上验证了 Scaling law 的有效性。Scaling law 也在具身智能大模型上面初步得到验证,让大家看到了具身智能 GPT 时刻出现的希望。在医疗方向,Nature 刚刚发表了三篇和医疗基础模型相关的论文,标志着医疗 AI 在快速迈向基础模型驱动的 2.0 时代,也是 Scaling law 规律的体现。所以,Scaling law 不仅是大模型发展的底层规律,也是通向 AGI 的可靠路径之一。
过去一年关于 Scaling law 是否遇到天花板的讨论比较多,但其实,目前能够有足够多的资源和数据去触摸 Scaling law 天花板的公司,全世界没几家。因为首先需要足够强大的基础设施和计算资源,其次还需要足够多的训练数据。关于数据,一方面是现有的互联网相关数据,另一方面是合成数据 —— 合成数据非常重要,但是合成数据的质量能否用于有效训练,取决于基础模型的生成能力和合成数据的方法,截止到 2024 年,可能只有 GPT-4 等极少数模型能达到这个水平。所以,目前还不能给 Scaling law 下个遇到天花板的结论。
3.2 Scaling law 固定路径被打破
随着 Scaling law 的纵深发展,其发展的固定路径已经被打破!进入了新的 Scaling law 2.0 阶段。
DeepSeek-V3 的发布在领域内引起广泛讨论,他们用正常十分之一的算力达到目前大语言模型的 SOTA 性能。个人认为这个工作的出现标志着 GPT-1 以来基于 Scaling law 的固定迭代路径已经被打破了,是个模型架构和工程优化结合的突破性成果。由此也让领域内看到模型工程优化的高度,所以模型架构在芯片计算层的优化将会是大模型训练和推理的研发重点方向。由此路径深入迭代,将会把模型工程引向模型架构和芯片架构深度融合的类脑芯片方向,从而突破 Scaling law 的限制,把模型训练和推理带入下一个阶段。当然,这个方向需要时间探索。国内刚刚发布的 MiniMax-01 模型也是这类不错的工作。
除此之外,OpenAI o1 开启 Test/inference-time scaling law 的阶段。语言大模型可以看成是知识的压缩,那怎么利用知识产生更好的智能就是基于基础模型的思维推理必然发展的方向。思维推理的发展也从一维单链路 CoT 模式到基于像蒙特卡洛树搜索 MCTS 的系统化多维推理演化,从而构建更智能更体系化的思维模型。推理算法的发展也反过来影响基础模型的 Scaling law 路径,例如微软 rStar-Math 算法无需从大模型蒸馏也能用 60 块 A100 训练的 7B 模型在数学推理上媲美达到 OpenAI o1 性能。上海 AI 实验室的书生・浦语 3.0 的 InternLM3-8B-Instruct 模型通过提升数据质量和数据工程,只用 15% 的算力达到 SOTA 性能。过去半年这类工作有不少,就不一一列举。
总结来说,无论数据维度、模型尺寸维度、还是算力维度,Scaling law 在模型上的体现已经过了粗狂式的发展阶段,进入追求更有效的数据使用方式、更合理的架构设计、更极致的工程优化、更体系化的思维推理的 2.0 阶段。
3.3 底层架构趋向统一
这里所说的架构可以分为两个层面,一个是指生成架构,例如自回归模型、扩散模型、流模型、生成对抗网络等;另外一个层面就是逼近函数通用的网络结构,例如卷积神经网络、LSTM、U-Net、Transformer 等。Transformer 架构因其对 Scaling law 的优良适配性,正在成为多种算法统一的底层架构。自然语言处理领域的自回归模型、擅长视觉任务的扩散模型和常用于 AI for Science 方向的图神经网络模型,都呈现了逐步收敛到 Transformer 架构之上的发展趋势。
在多模态方向上,理解、生成、理解和生成的统一等任务和模态的统一架构研究也非常活跃。业内期待能有一个大一统的架构可以把不同模态和任务统一,有代表性的例如智源研究院基于自回归架构的 Emu3 和 Meta 的 MetaMorph 模型。
架构趋于统一对于 AI 发展来说很有意义。首先,统一的架构可以显著地增强 AI 系统的互操作性,深度探索不同模态、不同语义、不同尺度数据的深层次关联性,这对人类通过 AI 认知和理解世界有决定性意义。达摩院在这个方向有跨领域跨学科的项目在开展中。另外,统一的架构也将大幅提升研发和部署效率,不仅使 AI 底层基础设施的模型系统架构更加简洁,也使推理的软硬件架构可以在不同领域快速泛化使用,这将大大加速 AI 研发效率、产品的落地速度、和普惠化程度。
自回归模型会是生成模型的最终答案吗?目前只能说,可能性是存在的。但是同时我们也要看到扩散模型除了在视觉方向的广泛应用以外,在 AI for Science 方向也正在被普遍使用。Transformer 会是 AI 的终极底层架构吗?终极答案是否定的,但在一定时间内 Transformer 还会是大多数 AI 算法设计的最优选择。尤其是随着 AI 的广泛应用,深入千行百业,会强化 Transformer 的主导地位,因为无论工程和系统方面,还是芯片等硬件层面,目前都是围绕 Transformer 架构进行的。除非有一个突破性的新架构出现,否则 Transformer 很难在短期内被颠覆。
3.4 生成模型是 AI 算法的第一性原理
深度学习解决了复杂函数的通用逼近问题,而生成模型解决了概率论里的古老问题 —— 高维数据分布 (或是非线性结构) 的拟合。我们上大学时学习概率论,核心就是估计概率密度函数、拟合数据分布。为什么拟合数据分布重要?因为 AI 处理的就是数据,一旦拟合了数据分布,寻找到数据结构的机理,就能通过直接采样生成新的数据。因此,绝大多数 AI 要解决的任务,本质上都可以简化成对数据分布的拟合和对数据分布的修正这两个很基础的问题。所以生成模型是非常本质的,它成为 AI 的基础模型是符合第一性原理的。
生成模型一定程度上可以突破互联网数据阶段性见顶和各个领域内数据缺乏的困境,对推动 AI 发展的作用远超作为算法应用本身。例如基础模型性能发展最成熟的 NLP 领域,生成数据用于训练模型已经是常态,是解决 NLP 数据困境的有效途径。除了视频方向的 Sora,自动驾驶领域也在用生成数据来解决 corner case 的问题。Tripo 和 Rodin 三维生成模型也展现了令人鼓舞的前景。科学方向基于扩散模型的 RFDiffusion 和 Chroma 算法可以用于蛋白质设计。微软发布了可以快速生成不同类型无机材料的基础模型 MatterGen。医疗方向也在用生成模型解决医疗数据稀缺的问题。随着各个模态生成基础模型性能的成熟,其它方向也会如此。
前面重点讨论了技术方向,接下来,让我们展望 AI 的产业影响。人类有几个基本的特点:血肉之躯的能力限制,所以物理工具是必需品,而最极致的工具是物理化的人 —— 机器人;知识无法遗传,所以教育不可或缺;肉体衰老死亡,所以医疗是人类社会的刚需服务;活动受到物理环境的限制,所以数字仿真必将成为 AI 的基础设施。我们就聚焦在硬件、教育、医疗、和数字仿真这几个题目进行简要讨论。
在人机交互的信息媒介中,语言和语音是其中两个最重要的两个基础模态。对于语音,除了智能手机之外,智能耳机会是自然的人机交互的指令入口,所以会在 AI 驱动的智能硬件中占有核心的地位。国内字节和讯飞都在消费级智能耳机方向上率先发力。另外,轻量级的脑机接口设备也在 CES 2025 上出现,例如美国初创公司发布的 Omi 的 AI 可穿戴设备。这种类似的智能硬件虽然轻量,但是都是不同模态人机交互入口级别的智能硬件,值得关注。
和主流看法有点差异,我们认为对于未来机会的把握这两个都不是当下落地的理想路径。而二者的结合:一个低自由度,结构简单稳定,能够带来 “轻、静、快” 的物理交互,又能结合 AI 提供多模态感知交互的机器人,很可能会更早地形成可以持续的商业生态。在 2025 年,除了大家都熟知的人形机器人,我们更期待一款可落地的消费级机器人新品类出现。
4.2 医疗 2.0 时代开启
在 AlphaFold 荣获 2024 年诺贝尔奖后,几乎所有人都意识到了 AI 解决基础科学问题的巨大力量,AI for Science 已成为毋庸置疑的重要趋势。其中,生命科学和医疗是关乎人类福祉的方向。AlphaFold 发明人之一、DeepMind CEO Demis Hassabis 也预测人类有可能在未来十年内治愈大部分疾病。这一预测如果成为现实,那将是医药诞生以来的历史性进步。
达摩院在医疗 AI 方向成果显著,在 Nature Medicine 上发表了基于平扫 CT 影像的胰腺癌检测算法 DAMO PANDA,是业内首次借助平扫 CT 进行胰腺癌筛查的方法,为大规模低代价进行胰腺癌筛查开辟了新的路径。这项工作被斯坦福大学发布的 2024 年 AI 指数报告列为 “年度亮点研究”,是国内唯一入选的工作。目前达摩院正在进行中的多病种统一算法架构、医疗多模态基础模型和肿瘤动力学等相关研究,也有望在今年取得重要进展。
4.3 AI 驱动的教育
无论孔子时代的问答式教学、还是柏拉图时代开启的思辩,教育至今都延续老师和学生物理互动的模式。学生学业的高度很大程度上取决于老师水平的高低和资源的多少,因此,受限于不同地域和文明发达程度的不一,人类离教育普惠一直遥不可及。令人欣喜的是,这种状况要在 AI 时代终结了。
在谷歌的 Gemini 多模态模型和 OpenAI 的多模态模型发布会上,都不约而同地展示了多模态大模型在教育场景的应用示例,这足以说明 AI 公司对于利用 AI 技术解决教育问题的期待和重视程度。AI 将人类沉淀的知识压缩到模型中,从而利用记忆和组合生成可以创造出比人类更加智慧聪明的数字智能体。所以在不远的将来,利用多模态大模型的能力,虚拟老师的水平将会超过几乎所有的真实老师的水平,从而使教育提高到一个全新的高度。只要有可以运行 AI 软件的硬件终端,人人都可以获取最好的教育。这会在未来五年内发生,将是人类教育事业全新的开始。
但是教育本身也包含物理互动的过程,而且这是数字智能体没法完全取代的,所以教育方向将有适应 AI 时代的各种智能硬件出现。
4.4 数字仿真 2.0
2024 年对于 AI 发生的其中有一个转折就是算法到物理世界的转场。AI 为了更好地适配物理世界并实现落地,各类数字化仿真将会成为不可或缺的基础设施。世界模型就是其中一个备受关注的方向,还有现象级讨论的 Genesis 物理仿真平台等。但是这里谈到的数字仿真远不止现在学术界研究的世界模型覆盖的范畴,这是一个涵盖从微观尺度到宏观尺度的数字技术和物理世界映射的范式变化。
英伟达在数字仿真领域上进行了系统化的深入布局。NVIDIA Isaac、Omniverse 和 Cosmos 等平台正构建一个完整的仿真生态系统,重塑工业研发链路和范式。在 CES 2025 上,英伟达演示了在自动驾驶仿真、飞机制造、机器人研发以及工业场景的数字孪生等方面的应用,展现了广阔的前景。
这轮 AI 浪潮会把人类社会带入全新的智能时代,人类认知世界、改造世界的能力将得到空前的提高。可以预料到的是,三十年后我们将身处一个与现在完全不同的崭新世界。作为 AI 从业人员,我们非常荣幸可以参与这一历史进程,也希望本文能够为 AI 同仁探索未来提供一些启发。未尽之处,欢迎关注 “DAMO 开发者矩阵”,我们将在后续文章中持续探讨 AI 的前沿趋势与应用展望。