「世界第一超算」宝座终易主:英伟达GPU加持,美国Summit超越神威太湖之光

自 2013 年以来,中国超算一直在全球超级计算机排名中位居第一,现在美国又回到了顶峰。本周五,美国能源部橡树岭国家实验室的工程师们发布了「Summit」,这是一台具有强大性能的超级计算机,它超越了目前的记录保持者:中国的神威·太湖之光。

这台由 IBM 等公司和机构打造的新机器的峰值算力可达每秒 200 petaflops——每秒 200 千万亿次计算。Summit 要比神威·太湖之光快 60%,比同在橡树岭实验室的 Titan——前美国超算记录保持者要快接近 8 倍。而在其之下,近 28,000 块英伟达 Volta GPU 提供了 95% 的算力。

由 IBM 构建的超级计算机 Summit 成为了世界上最智能、最强大的 AI 机器。其机架由超过 185 英里的光纤电缆连接而成。

位于美国田纳西州东部的橡树岭国家实验室宣布开发出新型超级计算机 Summit,这是目前地球上最强大的计算机器。它的设计目的部分是为了扩展人工智能技术。

自 2013 年 6 月中国超级计算机首次成为最强超算之后,美国就不再拥有世界上最强大的超算。Summit 有望结束这一局面,Top500 组织的超级计算机官方排名将在本月底更新。

超级计算机在云计算和大数据中心的时代略微失色。但是很多棘手的计算问题还是需要大型机器。去年美国政府的一份报告中称,美国应该在超级计算上投入更多,以在核武器和高超音速飞机等国防项目,航空航天工业、石油开采和制药业的商业创新方面赶上中国。

IBM 构建的超算 Summit 占地面积相当于两个网球场大小,其循环系统每分钟需要消耗 4000 加仑水来使 37000 个处理器降温。橡树岭实验室称,利用评估超级计算机的标准度量的结果显示,新的机器峰值性能可达 200 千万亿次计算每秒(2 后面有 17 个 0!),即 200 千万亿次浮点运算。速度大约是典型笔记本电脑的一百万倍,峰值性能几乎达到之前排名第一的中国超算神威·太湖之光的两倍。

Summit 超级计算机服务器内部图示(共有 4608 个服务器)。

在早期测试中,橡树岭国家实验室的研究人员使用 Summit 在一个分析人类基因序列差异的项目中执行超过一百万兆(quintillion)次计算每秒。他们称这是首次科学计算达到了计算规模要求。

美国这一最好超级计算机不仅对于算力地缘政治有很大影响,其设计也更加适合运行技术公司中流行的 机器学习 技术。

近年来,计算机科学在 语音识别 和围棋等游戏上实现突破的原因之一就是,研究者发现图形芯片可以对 深度神经网络 这一 机器学习 技术提供更大力量。Facebook 近期还披露了其使用十亿张 Instagram 照片在数百个图形芯片上进行了接近一个月的人工智能实验。

据介绍,新的「世界第一超算」Summit 使用了 27,648 块搭载 Tensor Core 的最新英伟达 Volta GPU,以及来自 IBM 的超过 9000 块传统处理器(其中包括 Power 9)。在 NVLink 等高速互联技术的帮助下,Summit 在每个节点上部署了 6 块 GPU(而不是常规的 1 块)这使得它的模拟性能达到了前作 Titan 的十倍。英伟达称,新的超级计算机上 95% 的算力来自于 GPU。

如此大规模的 GPU 使用对超级计算机来说也是不寻常的,它应该能够促使使用 机器学习 解决科学难题方面出现突破,橡树岭国家实验室负责人 Thomas Zacharia 说道。「我们计划构建世界上最强大的超级计算机,也是世界上最智能的超算。」

「Summit 是一个吸引全球伟大科学家的宏伟科学工具,」英伟达 CEO 黄仁勋在超算 Summit 发布会上表示。

伊利诺伊大学香槟分校、国家超级计算应用中心的研究员 Eliu Huerta 将 Summit 巨大的 GPU 池形容为「就像梦境一样」。Huerta 此前在一台名为 Blue Waters 的超级计算机上应用 机器学习 方法检测 LIGO 天文台的引力波数据(引力波发现者曾获得 2017 年的诺贝尔物理学奖)。他希望 Summit 能够帮助分析每晚从「大型综合巡天望远镜」得到的大约 15TB 图像。

Summit 也将用于利用 深度学习 解决化学和生物学问题。Zacharia 表示,这台超级计算机可以使用来自 2200 万退伍军人的医疗记录为美国能源部项目做出贡献,其中包括约 25 万全基因组序列。

此前,越来越多的美国人担心国家在大型计算领域的竞争力,Summit 的出现或许会推动其后继机型的发展。

美国、中国、日本和欧盟都已宣布了第一代「百亿亿级」(exascale)超算的研发计划——实现超过 1000 petaflop 的算力——这是大规模计算的下一个大里程碑。「中国称这一目标将在 2020 年实现,」华盛顿智库信息技术与创新基金会的全球创新战略副总裁 Stephen Ezell 表示,「如果 Summit 的继任者 Aurora 能够按期完成,那么美国也将在 2021 年实现这个目标,但是这一计划此前曾被推迟。」

Top500 组织在 2017 年 11 月发布的最新排名,国内的「神威太湖之光」和「天河二号」排名前两位,现在中国的领先位置或将被打破。

美国特朗普政府在今年春天申请 3.76 亿美元的额外资金来帮助实现 2021 年的超算研发目标。现在,这一提议已获得国家立法委员会的批准。「高性能计算对于一个国家的安全、经济竞争力和应对科学挑战的能力是必不可少的。」Ezell 表示。 

参考内容:

https://www.wired.com/story/the-us-again-has-worlds-most-powerful-supercomputer

https://blogs.nvidia.com/blog/2018/06/08/worlds-fastest-exascale-ai-supercomputer-summit/

产业 英伟达 GPU 硬件
1