在Google TPUAI芯片的新一代推出5年后,数据中心领域的AI芯片市场如火如荼。虽然投资热潮给新兴玩家带来了机遇,但它们必须面对财力雄厚的大企业以及已经形成的市场格局。那么,挑战Google TPUAI芯片,新入场者又将会遇到哪些难题呢?外媒作者BRIAN BAILEY深入分析了这一问题,我们以下进行编译。
近期,大量资金涌入到数据中心领域新型AI处理器研发中。但背后也隐藏着挑战。首先是来自终端用户的数据不足的问题。一个新的AI处理器设计公司要解决的是如何定义产品灵活性?是否专为单一任务设计还是支持多种工作负载?
这两个问题之间有很多解决方案,但相比过去,对于数据中心而言更具挑战性。这是因为需要在成本和时间内设计制造,同时考虑成本与回报。在这些限制下,潜在市场缩小了。
“设计定制芯片何时盈利?”Synopsys人工智能产品和研发总监Stelios Diamantidis提问,“如果我们提供定制芯片给数据中心,那么需要多少个才能盈利?”他指出,即使弄清楚这个数字,也无法确定最终方案。
“自定义化越来越高,以至于能为特定的算法创建更高效、性能优异的芯片。”西门子EDA战略和业务发展高级经理Anoop Saha说,“但这牺牲了一部分市场,并缩短了芯片寿命。”
Xilinx人工智能和软件产品营销总监Nick Ni认为:“大型企业已组建自己的芯片部门,为其关键工作负载打造专用晶圆。”但是,这并非只有谷歌这样做的情况。他解释道:“几个月前,一篇广受好评论文显示,尽管工作负载丰富,但没有一种占比超过10%。”
Synopsys的人工智能产品和研发总监Diamantidis补充道:“大多数定制都是推理用的,当转向训练时,就需要浮点支持。”不过,如果只用于推理,则可能使用低精度位数。如果模型固定,不必每次更新就重新定制,这是否值得?
当然,对Google来说这是良性循环。“TPU旨在满足特定的工作负载。” Synopsys工程副总裁Susheel Tadikonda说。“谷歌最初打造TPU,是为了意识到处理大量复杂计算所需建立大量数据中心。”
并不是每家公司都能享受这样的反馈循环。不过其他公司也有选择。“我们发现,最重要的是尽早关注正确架构,”西门子的Saha说。“正确并不仅仅是某个人认为正确,更不是基于过去经验或直觉做出的决定,因为现在还有太多未知因素。”
这些决定既宏观又微观,比如存储元素与计算元素差距,以及执行内存读取频率等。业界正在寻找新的架构,而谁知道什么样的架构才真正有效呢?唯一可以确定的是,要有一定的可塑性,并且在决定架构之前,有足够的市场数据支撑。
硬件与算法迭代速度影响着架构选择。这决定了从购买硬件赚钱的时间,也限定了开发成本。此外,每个电路板通常使用3-4年,而且几乎每隔两年就会升级一次内部硬件以适应快速变化的AI工作负荷。
换个角度看,AI晶圆卡可能每18个月就有机会进入一个新的数据中心。而想要搅动这个市场并不容易,因为更换现有晶圆卡频率以及添加新东西频率都是关键因素。一旦进入数据库,一般都会持续很长时间且难以更换,因此许多大型晶圆卡领域都有大量投资。