拥抱Arm，将Quadro性能翻倍，英伟达刚刚还发布了全新DPU战略 - ai人工智能 - 透明七彩巨人-tmqcjr.com

第一次在全球所有时区共同开启的英伟达GTC大会，为我们带来了全新一代安培架构的Quadro显卡，面向服务器的DPU产品线，同时还有一款价格超低，堪比树莓派的Jetson芯片。

撰文 | 泽南

「现在软件已经可以自动生成软件了，AI就是自动化过程中的自动化力量，」英伟达创始人黄仁勋在昨天的GTC秋季大会开场Keynote中说道。「AI编写的软件和人类大有不同，它们更加并行化，计算集中程度更是后者的千百倍。既然构建软件的方式不同，那么构建它们的计算基础设施、工具、软件以及开发方式也要不同。」

人工智能需要人们重新思考计算的方法，从芯片、系统、算法、工具再到生态系统。面对如此挑战，英伟达给出了自己的最新答案。

一 安培架构的Quadro显卡

在昨天的GTC Fall活动中，黄仁勋发布了安培架构的新一代专业级显卡Quadro RTX Ampere，并宣布将于今年12月交付。

「我知道你们都在急切地想要抢到自己的安培GPU——这是绝对可以理解的，我可以保证你的等待是值得的。安培是英伟达历史上最大的一次跃升，我们每次放出新货都是立刻售罄，」黄仁勋表示。「我们正在加班加点，你的新显卡正在路上。」

不过这次要发布的是专业级的GPU。NVIDIA的新一代Quadro RTX显卡A6000，与此前推出的RTX 30系列一样使用三星的8nm工艺打造，采用GA102 GPU，最高配备10752CUDA 核心，比RTX 3090还多256个。A6000的内存也达到了48GB，不过使用的是DDR6而非GDDR6X，因为目前后者无法实现足够高的容量。

在性能方面，英伟达宣称A6000在一些任务上的能力是上一代产品Quadro RTX 8000的两倍，这主要是通过制程提升、吞吐量增加、新浮点算法以及内存容量提升实现的。目前英伟达还未提供A6000的更多具体数据，以及最重要的价格。已知的是，A6000的功耗比3090要低50W，仅为300W。

另有一款功率相同的被动散热计算卡Quadro A40也将于2021年第一季度上市。A40几乎具有与主动冷却的A6000相同的所有功能，只是采用了纯被动散热的形式，适用于高密度服务器。

有了RTX显卡的算力，英伟达还推出了3D仿真模拟和协作平台Omniverse，通过这一工具，图像技术开发者们能够实时模拟出细节逼真的现实世界。它可以让负责3D建筑设计的建筑师、修改3D场景的动画师以及协作开发自动驾驶汽车的工程师，像线上共同编辑文档一样轻松设计3D虚拟场景。

目前，Omniverse已获得了许多主要专业软件的支持，如Adobe、Autodesk、Bentley Systems、Robert McNeel & Associates和SideFX等。在本次GTC上，英伟达还宣布Omniverse进入公测阶段，将于今年秋季开放下载。

二 最便宜的英伟达Jetson，59美元一块

「任何动起来的东西，在未来或多或少都会是自动化的。AI技术的突破已经让各种各样的机器人形态成为可能，」黄仁勋说道。「但我们还需要Jetson AI的算力把这些机器人实用化。」

和以往一样，Jetson拥有一个Arm架构的SoC，也支持CUDA，并拥有自己的Tensor Core。而更重要的是，昨天新发布的Jetson Nano 2GB价格已经低至 59 美元一块——这是一个和树莓派（Raspberry Pi 4）接近的低价。现在，英伟达希望所有人都可以使用GPU制造自己的机器人。

构建机器人相关的软件和AI的开发流程有些类似，人们会使用DGX这样的设备编写和训练，并在Jetson这样的端侧运行。在实践中，英伟达研究人员已经训练了很多现成模型，使用迁移学习工具，任何人都可以把它们应用在自己的任务上。在机器人领域，现在还可以通过实时的AI模拟环境大幅度提高训练的效率。

图片来自anandtech

除了价格更低之外，Jetson Nano 2GB的计算配置和常规Jetson Nano相同，有4个Cortex-A57 CPU内核的CPU，以及128个CUDA核的Maxwell架构GPU。不过2GB版本相比标准版少了DisplayPort输出，USB接口也不是3.0的。

还记得刚发布的奔驰 S级吗？这台车是梅赛德斯有史以来最智能化的车型，其中搭载了三块带英伟达GPU的计算芯片。在GTC Keynote上，英伟达还宣布了和奔驰的新合作计划：到2024年，所有奔驰车系都将搭载英伟达的DRIVE AV芯片。

三 推出DPU， 基于Arm架构的可编程数据中心芯片

我们都知道英伟达正在收购Arm，不过相比商业行为，英伟达的技术进展更快一些。这家公司在收购Mellanox之后，共同研发了新一代计算单元DPU。

英伟达推测，全球服务器的算力吞吐总量每两年增长十倍，而在2020年中，仅在AI推断任务中，在所有云服务器中使用GPU的算力数量已经超过了CPU。「按照这个趋势，在几年之后英伟达的GPU将会承载超过90%的全球AI推理算力。任何AI的应用和服务现在都可以基于英伟达芯片，」黄仁勋说道。

AI和数据分析应用必须是分布式的，由多个GPU和节点负责运算，云服务实际上也是巨量的「微服务」，这种新型的工作负载对虚拟化、网络、存储和安全提出了新的要求。在数据中心的计算设备上，人们提出了 DPU（Data Processing Unit）的新概念。这是一种更多通过软件定义的基础设施芯片。

新发布的DPU名为Bluefield-2，这种计算卡是以可编程 Arm 架构 CPU 为核心运作的。

Bluefield-2 DPU拥有70亿晶体管，将可编程的数据中心压缩成芯片大小。与之相对的，英伟达也发布了DOCA——可编程数据中心基础设施处理器的软件架构，允许开发者在DPU上构建自己的应用。英伟达表示，DOCA可以无缝兼容所有主流系统。

Bluefield-2只是一个开始，在英伟达的计划中，Bluefield-4将会引入CUDA和NVIDIA AI，大大加速网络中计算机视觉应用处理的速度。

如果用户现在就对AI算力有很高需求，英伟达也发布了Bluefield-2X，其中的安培架构GPU核心可以用于处理所需任务。「Bluefield-2X可以让你就像已经拥有了Bluefield-4一样，」黄仁勋说道。「在几年之后，我们将会带来近1000倍的吞吐量，并提供200-400Gbps的数据速度。」

在推动收购Arm的同时，英伟达也宣布了支持Arm架构的新三大战略：提供更多对Arm架构的GPU、网络、存储和安全的支持，实现更完整的加速平台；与合作伙伴开发覆盖从端侧到HPC所有平台的设备；接入NVIDIA AI和NVIDIA RTX技术到Arm架构——此前这些支持仅限于X86。

英伟达发布的这些产品，全部是为了开发者能够在构建AI技术时获得更多力量。在昨天的GTC上，英伟达一口气升级和更新了80款SDK，目前旗下工具的总量达到了110款。目前全球使用英伟达CUDA等工具的开发者数量已达到200万人。

「在AI时代的新形式计算中，我们会为探索前沿方向和技术民主化亲尽全力。」黄仁勋说道。

产业英伟达

联系人：	透明七彩巨人
Email：	weok168@gmail.com