经过多年生态建设,Arm服务器CPU市场已经逐渐蓬勃发展,前有亚马逊、Marvell基于Arm架构应用于云端,后有华为海思、平头哥基于Arm推出数据中心服务器,不久前,更是有不少顺应芯片创业潮而生的Arm服务器CPU初创公司,如遇贤微、鸿钧微电子,都涌入了这一领域。
近日,专注于开发高性能的Ampere Computing在2023年度战略和产品路线图更新分享中表示,他们推出了全新的AmpereOne系列处理器,这款基于5nm工艺制造的新一代处理器拥有令人瞩目的192个单线程Ampere核心,再次刷新了行业纪录。这种核心数量远远超过英特尔和AMD服务器CPU的核心数,如果将其置于一个具体场景——云环境中运行虚拟机(VM)进行对比,在相同条件下,每机架运行的虚拟机数量将是AMD Genoa的2.9倍,是英特尔Sapphire Rapids的4.3倍。
"AmpereOne现已投产并交付给客户,我们相信它能够为云工作负载提供更高的性能、更高可扩展性以及更高密度,这是第一款基于我们新自研核的产品。” Ampere Computing首席产品官Jeff Wittich如此表述。
此前的两年里,Ampere已经推出了几款不同的产品,从32核到128核不等,此时他们又进一步提升到了最高可达192核,对比隔壁X86阵营强调“多放10个核数,不如多放一个加速器”,Ampere似乎执着于核心数的提升。这对于数据中心市场意味着什么?
"全新推出的AmpereOne系列处理器并不旨在取代我们的先前产品,而是在它们基础上进行持续扩展。我们的出发点是希望能够满足不同客户不同的需求。” Jeff Wittich补充道。
除了拥有更多内核外,AmpereOne还提供了更多内存容量、带宽和IO带宽,并采用了PCIe 5.0 和 DDR5。这些建设主要服务于对算力有更高需求的大规模数据中心,而对于边缘计算场景,只需部署32核、功耗40瓦的小型处理器即可满足需求。此外,由于生成式AI算力的爆发增长,以及AI工作负载所需算力的显著增加,此次升级也特别关注提升AI能力。
通过收购OnSpecta公司并建立标准化框架Libraries,以支持硬件与软件协同效用,AI团队使得Altra能以极致速度执行AI任务。而现在,一些早期用户如Matoha利用这些处理器进行大规模云端AI推理,比如鉴别玻璃或金属材料以实现回收流程。
测试结果显示,与AMD Genoa相比,在每秒帧率上提高2.3倍,同时在稳定模型运行为例中表现优异。在推荐系统中的DLRM模型查询次数,也远超Genoa,每秒查询量翻了一番之多。值得注意的是,该技术不仅打破了效率瓶颈,还解决了解决GPU实现AI导致的问题,如能耗、高容量扩展难度及部署限制性问题。
为了避免内存墙问题变得更加严峻,除了拥有大量内核外,AmpereOne还配备128通道PCIe Gen5和8通道DDR5,以此提升内存带宽,加快速度。此外,它们采用的Chiplet设计方案有效地解决了内存不均衡问题:“我们通过Chiplet设计实现了一定的拓扑结构以及单一计算裸片,并且单一的大网格结构,这样可以帮助我们为客户提供平衡但又具有很好性能。”
Chiplet设计允许64MBSystem Level Cache(系统级缓存)被放在计算芯片上,便捷地实现内存访问,同时避免造成访问时间与系统级缓存之间不平衡,没有必要引入额外HOPs。但由于所有这两种类型都是基于ARM ISA,所以所有代码都能无缝迁移,无需修改,即便使用的是全新的处理器。这样做证明了ARM ISA在数据中心中的潜力,但同时也面临着X86长期建立起生态圈的一挑战,为此目标尚未达到完善状态。