欢迎来到世界集成電路創新聯盟官方网站!
世界集成電路創新聯盟
您的当前所在位置: 首页 行業要聞

亚马逊最新AI芯片Trainium3发布,下一代兼容英伟达生态

发布时间:

亚马逊云科技(AWS)在AWS re:Invent全球大会上,正式推出第三代AI训练芯片Trainium3,并同步披露下一代Trainium4研发进展。这款基于台积电3nm工艺打造的芯片,帮助企业更快地训练更大的人工智能模型,旨在冲击英伟达、谷歌等头部玩家的AI芯片市场格局。

111.png

据亚马逊云科技(AWS)披露,Trn3 UltraServers将多达144个Trainium3芯片集成到单个系统中,计算性能比Trainium2 UltraServers提升高达4.4倍。

在使用OpenAI的开源权重模型GPT-OSS对Trn3 UltraServer进行测试时,客户可以实现比Trn2 UltraServer高3倍的单芯片吞吐量,同时响应速度提升4倍。

Trainium3还显著降低了能耗——与上一代产品相比,能效提升了40%。

公司表示,与同样使用图形处理单元(GPU)的系统相比,训练和运行AI模型的成本能够降低最多50%。

AWS将Trn3 UltraServer设计成一个垂直整合的系统——从芯片架构到软件栈。这种整合的核心是网络基础设施,旨在消除通常限制分布式AI计算的通信瓶颈。全新的NeuronSwitch-v1为每个UltraServer提供两倍的带宽,而增强的Neuron Fabric网络则将芯片间的通信延迟降低到不到10微秒。

对于需要扩展的客户而言,EC2 UltraClusters 3.0可以连接数千台UltraServer,每台服务器最多可包含100万个Trainium芯片,是上一代的10倍。

不过,亚马逊拒绝透露新款AI芯片与谷歌、英伟达最新产品的基准性能对比,也未披露功耗参数。

此次发布的一大亮点则是亚马逊对AI战略的重新定位。下一代Trainium4将首次集成英伟达NVLink Fusion技术,实现与GPU的协同工作。

亚马逊表示,“为了实现更强大的扩展性能,Trainium4专为支持NVIDIA NVLink Fusion高速芯片互连技术而设计。这种集成将使Trainium4、Graviton和Elastic Fabric Adapter(EFA)能够在通用的MGX机架中无缝协作,为您提供经济高效的机架级AI基础架构,同时支持GPU和Trainium服务器。最终打造出一个灵活的高性能平台,专为高要求的AI模型训练和推理工作负载而优化。”

Trainium4旨在全面提升性能,包括至少6倍的处理性能(FP4)、3倍的FP8性能以及4倍的内存带宽,以支持新一代前沿训练和推理。

AWS首席执行官Matt Garman强调:“我们不是要取代英伟达,而是通过融合共存创造更大价值。”亚马逊转向“生态互补”,既保留自研芯片的成本优势,又借助英伟达软件生态吸引更多开发者。

分析人士认为,随着全球AI竞赛加剧,科技巨头纷纷寻求降低对英伟达GPU的依赖。

亚马逊自研的Trainium芯片,尽管在性能和成本上具备优势,但其采用范围确实仍相对有限,尚未在更广泛的AI头部企业中成为主流选择。亚马逊及其投资的Anthropic是Trainium最主要和知名的用户,亚马逊不仅自身使用,还通过投资与协议,推动其投资的AI公司Anthropic大规模采用Trainium芯片来训练模型。亚马逊指出,通过Project Rainier项目,AWS与Anthropic合作,将超过50万个Trainium2芯片连接到全球最大的AI计算集群,其规模是Anthropic上一代模型训练基础设施的五倍。Trainium3在此成熟基础上进一步扩展了UltraCluster架构,为下一代大规模AI计算集群和前沿模型提供更卓越的性能。

与英伟达CUDA平台历经多年建立的、极其丰富且稳定的开发者生态相比,亚马逊的芯片软件库在深度和易用性上仍被认为是主要的短板。这对于追求开发效率与稳定性的企业而言是关键考量。

目前全球AI训练市场由英伟达GPU主导,绝大多数大型科技公司和AI初创公司已围绕其构建了完整的技术栈。

即使是核心伙伴Anthropic,也并未独家采用Trainium。它同时与谷歌(使用TPU)和英伟达签署了大规模的算力采购协议,以保障供应链安全并优化性价比。可见头部AI公司倾向于采用多供应商策略,而非绑定单一架构。

而通过与英伟达技术的未来融合,亚马逊似乎在寻求一条合作与竞争并存的发展路径,为客户提供更多元化的AI算力选择。