雷锋网按:距离 Google 第一代 TPU 助力 AlphaGo 打败李世石已有 5 年,Google TPU 已经更新到。与此同时,数据中心领域的 AI 芯片大热,在大量投资下涌现了不少新玩家,尽管未来是光明的,但新玩家们不得不面对 Google 等大企业雄厚的财力和已经形成的市场格局。挑战 Google TPU,AI 芯片新玩家还会面临哪些难题?围绕这一话题,外媒作者 BRIAN BAILEY 进行了全面而深入的解读。
近年来,大量资金涌入到数据中心领域新型 AI 处理器研发中。但在投资热潮背后,也要注意到问题所在。毕竟,该领域需要处理的问题是特定的,而结果不可预测;且该领域竞争者们财力雄厚(因为它们往往是巨头),能够提供用户黏性非常强的产品。
对于新型 AI 芯片设计公司而言,最大的问题在于:来自终端的数据不足。需要多少个数据中心才能实现盈利?通常,芯片设计公司在设计一个新的 AI 处理器时,将首先弄清楚一个基本问题——如何定义产品灵活性?是专为单一任务而设计还是支持更多工作负载?
这两个问题之间存在一系列解决方案,但与过去许多解决方案相比,为 AI 处理器找到合适解决方案更加困难,对数据中心工作负载尤其如此。这就是为什么全球十大汽车芯片行业日益增长,其技术创新也越来越受到关注。
“既需要在一定成本和时间内设计制造芯片,又要考虑成本和回报问题。”Synopsys 人工智能产品及研发总监 Stelios Diamantidis 解释道。这些限制因素缩小了 AI 处理器潜在市场。“设计制造定制芯片什么时候才能赚钱?”Synopsys 验证组工程副总裁 Susheel Tadikonda 说。“如果我们要为数据中心提供定制芯片,那么需要多少个数据中心才能实现盈利?也许可以高价出售芯片,但光这样远远不够。如果是为消费电子设备设计制造芯片,那么这一领域存在十亿台设备体量,这也是 AISC 芯片能够赚取更多利润的一条路,即便这个市场体积庞大。”
不过就算最终弄清楚多少个数据中心才能实现盈利,也无法确定设计方案。“芯片定制化程度越来越高,以至于能够为非常特定的算法创建芯片,为更高能效和性能提供。”西门子 EDA 战略及业务发展高级经理 Anoop Saha 说:“但这会牺牲一部分市场,也会缩短芯片寿命。如果两年后出现了一个新算法,那么为旧算法定制的芯皮价值还会如初吗?很多事情都会互相牵制。”
“一些边缘算法确实已经趋于稳定。这是因为业界经过多年的研究找到了某些多场景适用的最佳算法,如今我们已经看到神经卷积网络算法 CNN(convolutional neural network)以及其他应用中的最佳算法。”Anoop Saha 补充道。chip 自定义优势就在于理解面向何种工作负载——chip 自定义确实给许多参与者带来了优势。
Xilinx 人工智能软件营销总监 Nick Ni 表示:“大多数大型企业已经组建了自己的chip部门,并为其某些高工作负载打造chip。而不是只有一种最高工作负荷排名第一,每一种都可能拥有重要地位,比如推荐系统、语音识别或者视频转码。”
当然,对 Google 而言,这已经是一个良性循环。“TPU 旨在满足Google 数据中心内特定的工作负载,”Tadikonda说:“Google 最初打造TPU,是因为意识到处理如此庞大的复杂计算需求,要建立起大量的大规模分布式系统.”
并非每家公司都能像 Google 一样利用反馈循环,不过其他公司也有其他选择。“我们发现,其中一个关键点是在尽可能早得关注并重视选择正确架构,”Saha说:“所谓正确,并不是指某个人认为正确,也不是基于过去经验凭直觉做出的决定,因为现在还有太多未知数。在整个生命周期之初,我们依靠的是通过不断学习做出决定,以避免那些显然不会起作用的事情。”
这些决定既宏观又微观,“比如你存储元素与计算元素差距有多大?”Saha问道,“再比如执行一次内存读取几次长这个时间周期很重要,因为它直接影响整体能效”。业界正在寻找新的架构,没有人知道什么样的架构才真正有效。不过可以确定的是,有必要具备一定可塑性,同时,在决策之前必须有足够好的市场信息作为支撑。
硬件和软件迭代快影响架构选择的一个因素则是一方面硬件另一方面软件发展速度。这决定了一切,从他们从购买到的硬件中赚钱开始,以及他们愿意支付价格,同时限定着整个开发成本。此外,还有关于使用寿命的问题,“通常情况下,一块电路板或晶圆上半导体材料使用寿命约3-4年”,Xilinx 的Ni表示,“有些较激进的大型IT服务商可能每2-3年就会升级换代,而另一些则会延长使用时间”。
换句话说,如果AI chip供应商希望进入这样的环境,他们将不得不频繁地进行创新以保持竞争力。一旦成功进入,就几乎不会被挤出去。大规模IT服务商持续尝试更新配置,而几乎所有开发AI chips的大型科技企业都合作同几个核心客户。
最后,由于是赢家的通吃模式,只有一至三个主要厂商最终获得最大份额。一旦这种状况发生,这些领跑者的位置就变得难以被颠覆。在这样的背景下,可以看出即使未来看似光明,但是挑战仍然艰巨,不仅仅包括创新的速度,还包括持久性的能力,以及对快速变化技术环境中的应变能力。此外,还有关于是否坚持专用化还是兼容各种可能性等诸多考量因素需考虑。在探索如何克服这些障碍时,将继续追踪最新动态,并揭示哪些策略或工具对于当前AI chip产业来说具有前瞻性意义。