首页>> 大数据与云计算>>新闻详情

自研芯片让云计算更强大,亚马逊云科技有话说

2024-11-27 17:22  《4PS呼叫中心国际标准研究中心》  咨询电话:17317241681(微信同号)  


如果大家有关注各硬件厂商的新品发布活动,可能会注意到这样一个现象,比起普通消费者,云计算厂商如今似乎对于更新硬件配置要热心得多。许多时候,那些最新最强的处理器、加速器和存储器件刚一发布,往往就会看到不止一家云计算厂商出来 " 站台 ",并积极宣传新硬件所带来的性能提升。

为什么云计算厂商会普遍对 " 新硬件 " 格外热心?因为对于云计算这种商业模式来说,绝对的硬件性能提升就必然意味着可以用更短的时间去完成既定的计算量,从而能够得到更多的设备 " 空闲 ",相当于在原有的总时间内可以应对更多用户需求。而能效比的上涨更是会带来同等计算量下功耗的降低,从而直接拉低巨大规模机房的运营成本。

除了争抢算力,自研芯片更是云计算厂商的重要选择之一

当然,除了 " 争抢 " 最新的通用硬件之外,也有一些云计算厂商选择 " 两条腿走路 "、发力自研芯片方案。只不过纵观整个云计算行业不难发现,对于 " 自研芯片 " 这件事,不同的企业似乎有着并不一致的目的。比如,有些企业虽然喜欢高调宣传他们的 " 自研 " 项目,但在其真正提供的云计算实例中,几乎没有多少服务真的用到了这些 " 自研芯片 "。

而与之相映成趣的,则是已连续 13 年被 Gartner 评为战略云平台服务(SCPS)魔力象限 " 领导者 " 的亚马逊云科技。历数亚马逊云科技如今的自研产品阵容不难发现,他们已经拥有包括通用处理器 Graviton、AI 训练芯片 Amazon Trainium、AI 推理芯片 Amazon Inferentia,以及网络系统 Nitro 在内的至少四大类自研硬件 / 芯片家族。

更不要说,根据云成本管理和优化平台 Vantage 的一项调查显示,在实例类型的成本支出方面,在 2024 第一季度的 Amazon EC2 M7 系列通用实例类型上,采用 Graviton 的 M7g 系列已经超过三分之一(34.5%);到了 2024 年第二季度,在 Amazon RDS、Amazon ElastiCache 和 Amazon OpenSearch 托管服务所采用的实例类型中,Graviton 已经超越了 Intel。

不难看出,作为持续的行业领导者,亚马逊云科技不只是拥有客观上更多的自研芯片种类。更为重要的是,他们是真的将自研芯片投入到了主力云计算业务中,并已取得了客观上的巨大成功。

从最初就开始 " 务实 ",是亚马逊云科技自研芯片的奥秘

那么,为何亚马逊云科技不仅能够自研硬件,而且可以让自研硬件带来云计算业务上的优势呢?要弄明白这一点,我们需要稍微做一些 " 历史功课 "。

亚马逊云科技的硬件自研之路始于 2012 年,并且从 2013 年就被确立为重要的业务策略,同年他们就研发出了第一款自研芯片 Nitro。

需要注意的是,Nitro 并非如今大家 " 喜闻乐见 " 的通用处理器或 AI 芯片,它本质上其实是一个专用硬件系统,主要用于高性能网络处理和虚拟化卸载。亚马逊云科技之所以要优先研发它,是因为他们注意到当时传统的、基于软件的网络虚拟机程序将大量的 CPU 资源消耗在了网络封包的卸载和加速操作上。而通过一款专用硬件系统去转移这个负载,就可以将服务器的更多 CPU 算力解放出来、让这些 CPU 性能能够被更多客户所使用。

是的,从这段历史中就不难发现,基于真正现实的需求去进行自研硬件的开发,是亚马逊云科技一直以来的传统。事实上,这一点不仅适用于已经更迭了五个代次的 Nitro 系统,更在最新的 Amazon Graviton 4 通用处理器的研发过程中,也起到了极其重要的指导意义。

不同于目前行业中传统的、以 " 跑分 ( 基准测试 ) " 为指标的处理器设计思路,Amazon Graviton4 是首个以实际工作负载为目标设计的处理器。在研发过程中,亚马逊云科技结合自身的业务特点,首先设计了真实工作负载的雷达图,将 CPU 微架构的参数特性划分为前端与后端,并各自细分为六项。再根据该雷达图来衡量 CPU 设计过程中不同的细节,来优化对最终实际云计算负载的效果。

正是在这样的设计思路指导下,最终诞生的 Graviton4 处理器核心数量增加了 50% 以上,内存带宽比前代提升超过 75%。按照亚马逊云科技方面公布的相关信息显示,这款云计算专用处理器广泛适用于高性能计算、机器学习、人工智能、容器化应用构建、数据分析和数据处理等不同领域。而根据亚马逊云科技在 Epic Games 的开源教学游戏 Lyra Starter Game 的测试来看,Graviton4 相比于前代带来了超过 25% 的性价比提升,与 Intel Sapphire Rapids 和 AMD Genoa 相比,更是能够带来 30%~35% 的性价比提升。

 

自研芯片推动服务性价比提升,更带来可持续的市场竞争优势

当然,除了强调芯片设计 " 贴近实际场景 " 之外,亚马逊云科技的许多自研硬件更是成为了其云服务性价比不断攀升背后的重要因素。

例如,2020 年亚马逊云科技推出了 Graviton2 处理器,它的计算性能比第一代提升 7 倍、内存速度达到前代 5 倍。

2021 年 Graviton3 面世,它的浮点性能比前代翻倍,但更为重要的是与同期的其他 EC2 实例相比,它的功耗仅有 40%。

除此之外,2022 年亚马逊云科技发布了 Inferentia 2 推理芯片。与前代方案相比,基于这颗新芯片的 Inf2 实例吞吐量提升 4 倍、延迟降低 90%,同时还有着 45% 的能效增长。

紧接着在 2023 年,除了前面提到的 Graviton4,亚马逊云科技还带来了 Trainium2 芯片。这款 AI 加速芯片比它的前代快 4 倍,同时每瓦性能提升更是多达 2 倍。

这意味着什么?一方面纵观亚马逊云科技的历史不难发现,自从 2006 年推出第一代公有云服务以来,他们至今已主动降价 100 次以上,甚至有时降价幅度极其巨大。比如就在今年 10 月,亚马逊云科技刚刚宣布将 Amazon DynamoDB 按需吞吐量的价格降低 50%、将全球表(Global Tables)的价格降低多达 67%。很显然,这种持续、主动的降价行为,很大程度是得益于了亚马逊云科技贴近自身需求、且不断进步的自研硬件体系,并且由于硬件的能效比持续提升,他们的云服务自然有底气既越做越好、越做越便宜。

另一方面,这种性能与性价比的双重提升,也促使亚马逊云科技可以实现一些规模惊人、难以被竞争对手企及的性能水准。比如在 AI 训练方面,EC2 UltraClusters 支持部署多达 100000 个 Trainium2 加速芯片,以实现超算级别、高达 65exaflops 的算力水平。

甚至就连亚马逊云科技自己,也受益于这种自研芯片所带来的 " 性价比 " 和规模优势。此前亚马逊云科技副总裁 Jeff Barr 曾展示了一张 Graviton4 开发时的实例集群快照,从中可以看到,他们充分利用自研处理器的规模优势,使用了多达数十万个内核加速 EDA 电子设计自动化流程,峰值规模为正常使用规模的 5 倍。而这种对于充足算力的尽情 " 挥霍 ",自然也从侧面体现了亚马逊云科技如今完善的自研芯片体系,给他们的业务所带来的显著性能、能效比,以及难以抗拒的价格竞争力。





共0条评论网友评论
  • 全部评论
共0条记录(共页)
向您推荐

新闻 按行业分类

厂商 按产品分类


        
总机:021-51601170 直线:021-58307717,17317241681(微信同号) 电子邮件:cct@51callcenter.com  泸ICP备10026114号-4  行业交流俱乐部QQ:2919157212
地址:上海市浦东新区牡丹路60号东辰大厦810室  邮编:201204 上海趋天网络技术服务有限公司 版权所有(2002-2018)