在Google TPUAI芯片崛起的5年后,数据中心领域的AI芯片新玩家如雨后春笋般涌现。尽管市场前景看好,但这些新贵必须面对巨头们雄厚的财力和成熟的市场格局。那么,挑战Google TPUAI芯片时,这些新玩家还会遇到哪些难题呢?外媒作者Brian Bailey深入探讨了这一话题,我们将其编译为以下内容:
近年来,大量资金注入了数据中心领域新的AI处理器研发中。但是,在投资热潮背后,也要注意到问题所在。毕竟,这个领域需要处理特定的、不可预测的问题;同时,竞争者们通常是财力雄厚的大型企业,它们提供给用户的是非常强大的产品。
对于设计新的AI芯片公司而言,最大的问题就是来自终端用户不足。这意味着需要多少个数据中心才能实现盈利?通常,在设计一个新的AI处理器时,首先会弄清楚两个基本问题:如何定义产品的灵活性?是否专为单一任务设计还是支持更多工作负载?
解决方案众多,但与过去许多解决方案相比,为AI处理器找到合适的解决方案更加困难,对于数据中心工作负载尤其如此。这是因为有很多因素需要平衡:“既要在一定成本和时间内设计制造芯片,又要考虑成本和回报。”Synopsys的人工智能产品和研发总监Stelios Diamantidis解释道。
“什么时候能赚钱?”Synopsys验证组工程副总裁Susheel Tadikonda问,“如果我们要为数据中心提供定制芯片,那么需要多少个数据中心才能实现盈利?也许可以高价出售芯片,但光这样远远不够。如果是为消费电子设备设计制造,那么这一领域存在十亿台设备体量,这也是AISC 芯片能够赚取更多利润的一大市场。”
即便最终弄清楚多少个数据中心才能盈利,也无法确定设计方案。“”Anoop Saha补充道。
“一些边缘算法确实已经趋于稳定。这是因为业界经过多年的研究,找到了一些多场景适用的最佳算法,如神经卷积网络(CNN)等。”Anoop Saha说。
Xilinx人工智能软件营销总监Nick Ni认为:“大型企业已经组建了自己的芯片部门,并为其高工作负载打造专用芯片。”
但是,对于Google而言,这已经是一个良性循环。“TPU旨在满足Google 数据中心内特定的工作负载,”Synopsys 的Tadikonda说。
并非每家公司都能使用Google反馈循环,不过其他公司也有其他选择。“我们发现,其中一个关键点是在早期关注并重视正确架构,”西门子的Saha说,“所谓正确,不仅仅指某个人认为正确,也不是基于过去经验或直觉做出的决定,因为现在还有太多未知数。”
这些决定既宏观又微观:“比如,你存储元素与计算元素差距有多大?”Saha问道:“再比如,每执行一次内存读取是什么样的时间间隔,这是一个重要的问题,因为读取写入直接影响整体能效。”
硬件与算法迭代快影响架构选择的一个因素就是硬件与算法发展速度。这决定了从他们购买硬件中赚钱的时间长度,以及愿意支付价格,同时限定了开发成本上限。
那么,用于数据中心的硬件使用寿命又长吗?
“通常情况下,电路板寿命约三至四年”,Xilinx的人工智能软件营销总监Ni Nick表示。
有些较激进的小型化服务器可能会更换一次,而另外一些则持续使用更长时间。在人工智能领域,如果关注 Google 的TPU发布新闻,就能发现 Google 在过去六年的时间里发布过四版TPU,即几乎每两年就会更新内部硬件,以针对快速变化的事务进行优化。