AI芯片的2020:英伟达和他的挑战者们

2020-05-22 10:09:00
刘大牛
转自文章
231
包括Nvidia的竞争对手在内,很少有人会对Nvidia今天在AI芯片京珠中占主导地位这一事实提出异议。而该公司新发布的ampere AI芯片更是在过去一周里出尽了风头。很多人也从多个角度进行了解读。我们也从其中一个角度分析一下。

英伟达的双重底线

Ray的分析要点是通过新一代芯片来知晓Nvidia的意图——那就是提供一个既可以用于 神经网络 “训练”的芯片系列(通过一系列示例中首先开发 神经网络 的);同时也可以用于推断,是根据新的传入数据进行预测的阶段。


Ray指出,这与当今的情况有所不同,在今天的情况下,不同的Nvidia芯片出现在不同的计算机系统中以进行训练或推理。而英伟达希望对AI“商店”进行经济论证,最好的结果是购买能够同时完成这两项任务的、基于英伟达新品啊的系统。他接着补充说,”


英伟达GPU工程高级副总裁乔纳·阿尔本(Jonah Alben)告诉分析师,英伟达已经尽力将英伟达的前代芯片Volta推向了高潮。但配备了540亿个晶体管的Ampere的性能更强调,可以执行5 petaflops的性能,大约是Volta的20倍。
因此,英伟达追求双底线:更好的性能和更好的经济性。让我们回想一下,最近Nvidia还增加了对Arm CPU的支持。分析师表示,尽管目前Arm处理器的性能可能无法与Intel相提并论,但其较低的电力需求也使其成为数据中心的诱人选择。


在软件方面,除了支持 Apache Spark 外,Nvidia还推出了Jarvis——一个用于构建会话AI服务的新应用程序框架。Nvidia指出,要提供交互式的个性化体验,公司需要在针对其自身产品和客户需求的数据上训练其基于语言的应用程序。


但是,从头开始构建服务需要深厚的AI专业知识、大量数据以及用于训练模型的计算资源,以及需要用新数据定期更新模型的软件。Jarvis旨在通过提供对话式AI的端到端 深度学习 pipeline来应对这些挑战。


Jarvis包括最新的 深度学习 模型,可以使用Nvidia NeMo进行进一步的微调,使用TensorRT进行推理优化,并使用Nvidia的GPU目录NGC上的Helm图表将其部署在云中和边缘-优化的软件。

英特尔 和GRAPHCORE:高调挑战者

我们一次又一次指出,Nvidia的领先不仅仅体现在硬件。实际上,Nvidia的软件和合作伙伴生态系统是竞争对手更加难以匹敌的部分。但是,竞争对手也在采取行动。一些竞争对手可能会在价格上挑战英伟达,另一些可能会在性能上挑战英伟达。让我们看看挑战者在做什么。


英特尔 之前一直在研究其Nervana技术。但在2019年底, 英特尔 宣布以20亿美元的价格收购了初创公司Habana Labs之后,这在市场上引起了轰动。正如分析师Karl Freund指出的那样,在收购之后, 英特尔 一定致力于将其AI加速从Nervana技术切换到Habana Labs。


Freund还强调了软件堆栈的重要性。他指出, 英特尔 的AI软件堆栈仅次于Nvidia,其分层结构(通过抽象)提供对多种芯片的支持(包括Xeon,Nervana,Movidius甚至是Nvidia GPU)。Habana Labs具有两个独立的AI芯片,用于训练的Gaudi和用于推理的Goya。


英特尔 展望Gaudi和Goya可以与英伟达的芯片同台竞技。从去年发布的MLPerf推断 基准 测试结果看来,Goya也是有优势的。但是,我们必须拭目以待,它与Nvidia的Ampere和Nvidia不断发展的软件堆栈相比有何优势。


另一个引人注目的挑战者是GraphCore。这家总部位于英国的AI芯片制造商采用从头开始设计的架构,以实现高性能和独角兽身份。GraphCore也一直忙于扩展其市场覆盖范围并开发其软件。


从戴尔的服务器到Microsoft Azure的云以及 百度 的PaddlePaddle硬件生态系统,GraphCore都有许多重要的交易。GraphCore还一直在开发自己的软件栈Poplar。并在上个月更新了一个新版本和一个新的分析工具。


如果说 英特尔 还有很多工作要做,这当然也适用于GraphCore。但是,两家供应商的发展轨迹似乎相似。旨在在硬件级别上进行创新,希望能够通过针对AI工作负载量身定制的全新且完全不同的方法来挑战Nvidia。同时,致力于他们的软件堆栈,并建立他们的市场地位。

Run:AI ——AI的软件解决方案对AI硬件进行分级

最后但并非最不重要的一点是,一些挑战者不太引人注目并且采用了不同的方法。初创公司Run:AI最近就浮出了水面,他们宣布获得了1300万美元的融资,这听起来像是一种非传统的解决方案:Run:AI并未提供另一种AI芯片,而是提供了一个软件层来加速本地 机器学习 工作负载的执行,这也可以在云中实现。


该公司与 AWS 紧密合作,并且是VMware技术合作伙伴。它的核心价值主张是充当一个管理平台,以弥合不同AI工作负载和各种硬件芯片之间的鸿沟,并运行一个真正高效且快速的AI计算平台。


Run:AI最近推出了针对Kubernetes 深度学习 工作负载的部分GPU共享。分数GPU系统针对诸如推理之类的轻量级AI任务,为 数据科学 和AI工程团队提供了在单个GPU上同时运行多个工作负载的能力,从而降低了成本。
运行:AI作为运行AI工作负载的硬件之上的抽象层


Run:AI联合创始人兼首席执行官Omri Geller告诉记者,Nvidia宣布的有关“部分化” GPU或在单个GPU内运行单独作业的公告对于GPU硬件而言是革命性的。Geller说,已经看到许多客户有这种需求,尤其是在推理工作负载方面:为什么要在不需要GPU的完整计算和内存的工作中使用完整的GPU呢?


Geller回答道:“我们认为,在软件堆栈中要比在硬件级别更易于管理,其原因是灵活性。虽然硬件切片可创建具有固定数量的内存和计算核心的较小的GPU,但软件解决方案可实现将GPU划分为任意数量的较小GPU,每个GPU具有选定的内存占用量和计算能力。”


“此外,可以使用任何GPU或AI加速器(不仅限于Ampere服务器)使用软件解决方案进行细分,从而提高了公司所有计算资源的TCO,而不仅仅是最新的。实际上,这就是Run:AI的分数GPU功能实现的功能。”Geller补充说

INACCEL 的想法

InAccel是一家希腊初创公司,围绕提供FPGA管理器的前提而构建,该管理器允许使用简单的编程模型跨FPGA资源集群在大数据集中进行分布式加速。创始人兼首席执行官Chris Kachris告诉记者,关于FPGA与GPU的优势,尤其是对于AI工作负载,存在多种争议。


他同时指出,与深度 神经网络 (DNN)的GPU相比,FPGA在某些情况下可以提供更高的能源效率(性能/瓦特),并且还可以实现更低的延迟。Kachris补充说,对于DNN,FPGA可以使用小批量实现高吞吐量,从而大大降低了延迟。在延迟和能效至关重要的应用中,FPGA可能占优势。


但是,FPGA集群的可扩展部署仍然具有挑战性,这是InAccel不能解决的问题。其解决方案旨在提供FPGA集群的可扩展部署,证明FPGA世界缺少抽象的类OS层。InAccel的协调器使FPGA集群的部署,即时扩展和自动化资源管理变得容易。


Kachris比喻InAccel到VMware / Kubernetes,或Run.ai / Bitfusion为FPGA世界。他还声称InAccel使FPGA对软件开发人员来说更容易。他还指出,像 英特尔 赛灵思 这样的FPGA供应商已经认识到强大的生态系统的重要性,并结成强大的联盟来帮助扩展其生态系统:


“由于不同的平台各有利弊,云供应商似乎必须提供多样化和异构的基础架构。这些供应商中的大多数都提供完全异构的资源(CPU,GPU,FPGA和专用加速器),让用户选择最佳资源。
一些云供应商(例如 AWS 阿里巴巴 )已经开始部署FPGA,因为他们看到了潜在的好处。但是,由于用户需要熟悉FPGA工具流程,因此FPGA部署仍然具有挑战性。InAccel的目的使软件开发人员能够使用熟悉的PaaS和SaaS模型以及高级框架(Spark,Skcikit-learn,Keras)获得FPGA的所有优势,从而使FPGA在云中的部署更加容易。”

对冲您的赌注

要成为该领域的领导者,需要的不仅仅是快速的芯片。成本也是潜在用户需要考虑的重要一方面,生态系统和软件是另一方面。考虑到所有因素,Nvidia似乎仍然领先于竞争对手。


但是,有趣的是,这种现象已越来越像单一文化。创新来自不同的地方,形式和形式也不同。Nvidia的Alben也承认这一点。当然,云供应商,服务器供应商和应用程序构建者似乎已经注意到了这一点。


在AI芯片市场对冲,可能是明智的选择。
半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业 AI芯片 英伟达
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com