面向生成式AI的云上创新,亚马逊云科技为我们打了个样

本月,素有「云计算春晚」之称的 re:Invent 大会在拉斯维加斯开幕,亚马逊云科技拿出了一系列新技术与产品,从大模型、芯片、算力服务到开发工具,以全栈联动的方式重塑了云上创新的体验。

总结下来,今年 re:Invent 的发布聚焦生成式 AI、数据战略和云服务三大领域:

  • 在生成式 AI 领域,亚马逊云科技推出 Amazon Nova 系列基础模型并强化 Amazon SageMaker、Amazon Bedrock 和 Amazon Q 等核心服务,通过更低的训练和推理成本、更多的模型选择、更深入场景的应用全面加速企业应用生成式 AI 创新;
  • 在数据战略方面,亚马逊云科技发布新一代 Amazon SageMaker 为数据、分析和 AI 提供统一平台;同时,Amazon S3 新增了 Tables 存储类型和元数据功能,以及无服务器分布式 SQL 数据库 Amazon Aurora DSQL 将进一步提升用户的数据管理能力;
  • 在云服务方面,亚马逊云科技推出搭载 Trainium2 芯片的新型计算实例和为万亿参数模型提供实时推理性能的超级服务器。

近日,re:Invent 2024 中国行全国巡展活动正式开启,亚马逊云科技的高管持续向我们分享了今年发布的技术要点。

「我们不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化,」亚马逊云科技大中华区产品部总经理陈晓建表示,「我相信,只有这样全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。」

陈晓建在亚马逊云科技 2024 re:Invent 中国行北京站上进行了主题分享。

亚马逊云科技认为,几乎所有的应用程序都可以分解成为数个核心构建单元,构建出优秀的核心单元,就可以方便用户通过自由搭建的方式,满足他们在特定场景下不同的业务需求。

基于这样的思考,亚马逊云科技构建了覆盖基础设施、模型和应用的全栈技术创新。

从大模型开始,技术平台全面进化

最近在科技领域,生成式 AI 的产品发布节奏已大幅加快,对于亚马逊云科技来说也是如此。仅在 re:Invent 期间,基础模型托管服务 Amazon Bedrock 的新特性就多达 21 个。

在生成式 AI 领域,亚马逊云科技全面强化基础设施、模型和应用三层技术栈,希望能够帮助企业更轻松、更经济地将生成式 AI 应用于实际业务场景。

今年 re:Invent 上宣布的更新包括:推出 Amazon Nova 六款基础模型;Amazon Bedrock 新接入 100 多款模型,并推出 AI 防护、多智能体协作和模型蒸馏等重磅更新,优化推理场景的准确性、成本和响应速度;Amazon Q 更加深入软件开发和商业应用场景,并为传统工作负载转型开辟新途径;Amazon SageMaker AI 将帮助客户更快更轻松地构建、训练和部署模型等等。

在这其中:

・    自研生成式 AI 多模态大模型 Amazon Nova 在多种任务中达到了 SOTA 水平,也在性价比层面实现了业界领先。它包括 Nova Micro、Nova Lite、Nova Pro 和 Nova Premier 基础模型,以及用于生成高质量图像的 Nova Canvas 和生成高质量视频的 Nova Reel。在各自智能类别中,Amazon Nova Micro、Lite 和 Pro 应用成本比 Amazon Bedrock 中表现最佳的模型至少降低 75%,同时也是 Amazon Bedrock 中对应类别速度最快的模型。

  • Amazon Bedrock 平台在今年得到了全面升级,亚马逊云科技首发提供了 Luma AI 和 poolside 模型,更新了 Stability AI 的最新模型,并通过新推出的 Amazon Bedrock Marketplace 功能为客户提供 100 多个热门、新兴及专业模型。Amazon Bedrock 推出了低延迟优化推理、模型蒸馏、提示词缓存等功能,大幅提升推理效率,同时支持 GraphRAG 等知识库功能增强数据利用能力。另外,其通过自动推理检查功能和多智能体协作等创新,进一步增强 AI 安全性并推动智能体发展。
  • 人工智能助手 Amazon Q Developer 增加了三款新智能体,能进行自动执行单元测试、文档编制和代码审查流程,并通过与 GitLab 深度集成,扩展应用场景。亚马逊云科技推出了转型功能以加速 Windows.NET、VMware 和大型机工作负载的迁移和现代化,缩短转型时间并降低成本,并强化了 Amazon Q Business 和 Amazon Q in QuickSight 洞察能力,并简化了复杂工作流程的自动化实现方式。
  • 在基础设施层面上,亚马逊云科技推出 Amazon SageMaker AI 的四项创新,包括 Amazon SageMaker HyperPod 的新训练配方功能、灵活训练计划和任务治理功能,以及在 Amazon SageMaker 中使用亚马逊云科技合作伙伴的热门 AI 应用。这些功能将帮助客户更快开始训练流行模型,通过灵活训练计划节省数周时间,并将成本降低高达 40%。

亚马逊云科技表示,在 2024 年已观察到许多客户对生成式 AI 的引入已经从思考阶段进入实践阶段。到 2025 年,情况将发生变化,很多产品将从原型验证转为生产阶段。届时客户将提出更加复杂的需求,需要各种技术支持。

一系列工具的升级满足了这些需求。

统一平台,释放数据价值

在大模型时代,数据管理和使用的重要性还在持续提升。在数据分析领域,亚马逊云科技同样提供了最全面、最深入的专用服务组合,包括数据仓库 Amazon Aurora redshift、大数据处理的 Amazon Aurora、Amazon Elasticsearch Service(OpenSearch)用于搜索分析、流数据的分析 Amazon Kinesis、Amazon MSK,还有数据的聚合 Amazon Glue、交叉的分析 Amazon Athena 以及 BI 工具 Amazon QuickSight 等多个领域的不同产品和服务。

亚马逊云科技推出的新一代 Amazon SageMaker 包括一个新的、统一的工作室,可为客户提供一个单一的数据和 AI 开发环境,用户可以在其中查找和访问其组织中的所有数据,为各种常见的数据用例选择最佳工具,并将数据和 AI 项目扩展至团队内不同分工角色以实现协作。

新一代 Amazon SageMaker 将快速 SQL 分析、PB 级大数据处理、数据探索和集成、模型开发和训练以及生成式 AI 等功能统一到一个集成平台上。通过全新的 Amazon SageMaker Unified Studio,客户可以轻松查找和访问组织内的所有数据资源,并借助 Amazon Q Developer 选择最适合的工具进行处理。Amazon SageMaker Catalog 和内置治理功能确保数据、模型和开发组件的合规访问,此外,通过 Zero-ETL 与领先 SaaS 应用程序的集成,客户无需构建复杂的数据管道,即可在 Amazon SageMaker Lakehouse 和 Amazon Redshift 中分析第三方应用数据。

Amazon SageMaker Lakehouse 则实现了数据湖、数据仓库、运营数据库和企业应用程序中数据的统一管理,支持客户使用熟悉的 AI 和机器学习工具或 Apache Iceberg 兼容的查询引擎进行访问和处理。

亚马逊云科技一直在倡导打破数据孤岛,朝着 Zero ETL 这样的愿景迈进。无论在 Amazon S3、Amazon Aurora、Amazon RDS、Amazon DynamoDB 还是 Amazon Redshift 之间,都正在或已实现了 Zero ETL。但在生产环境中,大量数据分布在不同孤立的数据源上,于是亚马逊云科技推出了应用 Zero ETL 的集成方法,让人们无需构建和管理数据渠道,就可以分析在各种主流第三方 SaaS 所应用的数据。

从 AI 芯片开始,升级全栈联动

作为全球云计算的开创者和引领者,亚马逊云科技在计算、网络、存储和数据库等核心领域持续创新,为各类工作负载提供更强大的底层支持。

在自研芯片方面,其基于 Amazon Trainium2 的 EC2 Trn2 实例已宣布正式可用,较当前 GPU 实例性价比提升 30-40%。它推出了配备 64 个 Trainium2 芯片的 EC2 Trn2 UltraServers 服务器,提供高达 83.2 Petaflops 浮点算力,计算能力是单一实例的四倍。在大规模训练方面,Project Rainier 集群搭载数十万个 Trainium2 芯片,算力超越以往集群 5 倍以上。采用 3 纳米工艺的下一代 Trainium3 芯片预计将在 2025 年末上线,预计将使集群性能提升 4 倍,并在性能、能效和密度上树立新标杆。

在网络基础设施方面,亚马逊云科技推出了第二代 UltraCluster 网络架构,也称为「10p10u」网络,支持超过两万块 GPU 协同工作,带宽达 10Pb/s,延迟低于 10ms,这一突破性升级将模型训练时间缩短至少 15%。

在存储服务方面,Amazon S3 新增 Metadata 元数据功能实现自动获取和实时更新;推出专为 Iceberg 表优化的 S3 Tables 存储类型,将查询性能提升 3 倍,事务处理能力提升 10 倍。

在数据库服务方面, Amazon Aurora DSQL 是一款全新的无服务器分布式 SQL 数据库,采用 active-active 架构并具备自动故障恢复功能,支持应用程序在任意端点进行读写。它不仅提供 99.999% 的多区域可用性,还能实现近乎无限的可扩展性,且无需进行数据库分片或实例升级。同时,Amazon DynamoDB global tables 也增加了多区域强一致性支持,进一步增强了其分布式数据库服务能力。

亚马逊云科技还重塑了数据中心设计的基础架构。通过简化电力分配和机械系统,实现基础设施可用性达 99.9999%,将受电气问题影响的机架数量减少 89%。创新的「液体到芯片」冷却系统无缝集成空气和液体冷却功能,机械能耗降低 46%。全新设计让每个站点提供增加 12% 的计算能力,同时在可持续性方面取得重要突破,采用可再生柴油作为备用发电系统燃料,与传统化石柴油相比温室气体排放可减少 90%,数据中心建筑的混凝土固有碳排放量较行业平均水平最高可降低 35%。

推动生成式 AI 重塑未来

众多初创企业与行业领袖正在使用亚马逊云科技持续创新。在亚马逊内部,Amazon Kindle 的技术支持工程师采用 Amazon Q Developer 的运营调查功能后,问题解决速度提升了 65-80%,这使他们能够更快地响应客户需求,确保提供卓越的用户体验。

Amazon Music 的开发人员将 Amazon Q 视为全天候的得力助手,它能够自动调查并识别各种潜在问题,极大提升了他们的响应速度。初期的使用数据显示,Amazon Music 的问题解决速度提高了一倍,确保了听众能够不间断地享受他们喜爱的音乐。

大模型初创公司 Anthropic 的旗舰产品 Claude 已被优化在亚马逊最先进的 AI 硬件 Trainium2 上运行。Anthropic 将使用数十万个 Trainium2 芯片,该规模是其之前集群的五倍以上,为使用 Amazon Bedrock 上的 Claude 客户提供卓越的性能表现。

近日,亚马逊云科技新任 CEO Matt Garman 提出了一个发人深省的观点:人工智能是一场没有终点的竞赛,它将永远持续下去。目前这场竞赛已经快要到了技术的应用阶段。

「亚马逊云科技提出的一系列增强功能,从根本上定义了构建和扩展基础模型训练的方式,能帮助你在降低成本的同时实现最优的训练效率。当然,除了数据的处理和模型训练,AI 工作流程中还有很重要的一个工作就是推理,」陈晓建表示。「当模型训练结束,你可能需要强大的平台和工具来把实现结果放到推理环境,为真实业务带来价值。」

这意味着推理将无处不在,所有业务可能都需要应用到大模型所提供的推理能力,亚马逊云科技正在提供能够支持规模化推理的平台,能够帮助客户充分用好自身的私有化数据,并在模型的性能、功能和成本方面取得平衡。

或许很快,我们就会看到几乎所有的应用都会进化成为生成式 AI 应用,新技术会在不同场景和业务中带来价值。

产业 亚马逊云科技