Apple Vision Pro 的正经用法来了。
在 CES 2025 开幕式上,英伟达 CEO 黄仁勋发表了第一个主题演讲,宣布了 RTX50 系列显卡、超算芯片和各种 AI 项目。这一次,从机器人芯片、自动驾驶到消费级 GPU 都获得了一次全面的升级。
老黄的演讲从芯片到生成式 AI 的 Scaling Laws,最后延伸到了下一个前沿方向 —— 进入物理世界的 AI。
未来二十年,预计人形机器人市场将达到 380 亿美元。为了满足这一巨大需求,尤其是工业和制造业领域的需求,英伟达发布了一系列机器人基础模型、数据管线和仿真框架,以加速下一代人形机器人的开发进程。
英伟达希望新的工具能成为未来科技世界的核心,帮助十亿个人形机器人、一千万家自动化工厂和 15 亿辆自动驾驶汽车和卡车落地。
其中一个重点是用于合成运动生成的 NVIDIA Isaac GR00T Blueprint,其可以帮助开发者生成海量的合成运动数据,以便通过模仿学习来训练人形机器人。
模仿学习是机器人学习的一个子集,它能让人形机器人通过观察和模仿人类专家的示范来获取新技能。在真实世界中收集这些广泛、高质量的数据集既繁琐又耗时,而且成本往往高得令人却步。通过用于合成运动生成的 Isaac GR00T Blueprint,开发者只需少量人类示范,就能轻松生成海量的合成数据集。
英伟达表示,通过 GR00T-Teleop 工作流,用户可以借助 Apple Vision Pro 在数字孪生环境中捕捉人类动作。这些人类动作会被记录下来作为金标准,并在仿真环境中由机器人模仿学习。
然后,GR00T-Mimic 工作流会将捕捉到的人类示范扩展成更大的合成运动数据集。最后,基于 NVIDIA Omniverse 和 NVIDIA Cosmos 平台构建的 GR00T-Gen 工作流,会通过域随机化和 3D 提升技术,指数级扩增这个数据集。
之后,该数据集可作为机器人策略的输入,在 NVIDIA Isaac Lab(一个用于机器人学习的开源模块化框架)中,教会机器人如何在其环境中高效且安全地移动和互动。
NVIDIA 在 CES 上还发布了全球首个基础世界模型平台 Cosmos,它拥有一系列开放的预训练世界基础模型,专为生成具有物理感知的视频和物理 AI 开发所需的世界状态而设计。它包含自回归模型和扩散模型,有各种模型尺寸并适用于多种输入数据格式。这些模型基于 1800 万亿个数据单元进行训练,其中包括 200 万小时的自动驾驶、机器人、无人机拍摄的视频以及合成数据。
除了帮助生成大型数据集外,Cosmos 还能通过将图像从 3D 扩展到真实场景,缩小仿真与现实之间的差距。将 Omniverse(用于构建 3D 应用程序和服务的应用程序编程接口和微服务开发平台)与 Cosmos 相结合至关重要,通过其高度可控、物理精确的仿真提供关键保障,有助于最大限度地减少世界模型常见的幻觉问题。
英伟达表示,人形机器人的软件、硬件制造商以及机器人厂商可以申请提前加入人形机器人开发者计划。
NVIDIA Isaac GR00T、Omniverse 和 Cosmos 正在助力物理 AI 和人形机器人创新实现巨大飞跃。包括波士顿动力和 Figure 在内的明星机器人公司已开始采用 Isaac GR00T,并展示了相关成果。
在 CES 上,Aurora、Continental 和英伟达宣布建立长期战略合作伙伴关系,大规模部署由下一代 NVIDIA DRIVE Thor SoC 提供支持的无人驾驶卡车。黄仁勋表示,Thor 将会提供上代智能驾驶芯片 Orin 的二十倍算力。Thor 和 DriveOS 将集成到 Aurora Driver 中,Aurora Driver 是一款 SAE 4 级自动驾驶系统,大陆集团计划于 2027 年量产。