反复探究新兴玩家在谷歌TPU AI芯片领域面对的挑战与难题是否半导体技术的关键考验

新兴玩家在谷歌TPU AI芯片领域面临的挑战与难题:半导体技术的关键考验,5年时间里从AlphaGo到最新AI进展

随着Google TPU助力AlphaGo打败李世石已有5年,Google TPU已经更新至最新版本,同时数据中心AI芯片市场竞争激烈,不少新进入者涌现。尽管未来看好,但这些新玩家必须面对大企业如Google等雄厚财力和形成市场格局的巨大壁垒。

近年来,数据中心领域迎来了大量资金注入,以促进新型AI处理器研发。但背后问题也逐渐显现:该领域复杂性高且不可预测;竞争者财力雄厚,提供强黏性产品能力强。

对于设计新的AI芯片公司而言,最大的困境是来自终端用户不足的问题。要达到盈利点需要多少个数据中心?通常在设计一个新的AI处理器时首先会考虑灵活性的定义——是否专为单一任务设计还是支持多种工作负载?

这两个问题之间存在多种解决方案,但相比过去寻找合适解决方案更为困难,对于数据中心工作负载尤其如此。这是因为许多因素需要平衡:“既要在成本和时间内设计制造芯片,又要考虑成本回报。”Synopsys人工智能产品和研发总监Stelios Diamantidis解释道,这些限制因素缩小了AI处理器潜在市场。

“何时能以定制芯片赚钱?”Synopsys验证组工程副总裁Susheel Tadikonda说。“如果我们为数据中心提供定制芯片,那么需要多少个数据中心才能实现盈利?即使价格较高,也远远不够。如果是消费电子设备,那就是十亿台设备体量,更是一个AISC可以赚取更多利润的市场。”

尽管最终弄清楚多少个数据中心才能盈利,但还无法确定设计方案。“chip定制化越来越高,以至于能够为特定的算法创建chip,为更高效能效提供,”西门子EDA战略和业务发展高级经理Anoop Saha说:“但这会牺牲部分市场,也会缩短chip寿命。如果两年后出现了新算法,那旧算法定制的chip价值还剩余吗?很多事情都会互相牵制。”

“一些边缘算法确实趋于稳定。”Anoop Saha补充道,“这是因为业界经过多年的研究,在最佳算法上取得了一致,如神经卷积网络(CNN)等。此外,还有针对唤醒词检测、手写识别等特定应用找到的最佳算法。”

Xilinx人工智能软件营销总监Nick Ni表示:“大型企业已经组建了自己的chip部门,为其datacenter中的某些高工作负载打造专用Chip。例如,如果google将推荐型神经网络视作最高工作负荷之一,它就有必要为此创建专用Chip。如果排名第二的是语音识别,然后是YouTube视频转码,那么同样也是值得.”

反观机会广泛但独特地属于google几个例子中的一员。而几年前,一篇谷歌发表的论文指出datacenter workloads类型繁多但没有一种占比超过10%,意味着还有大量微小workloads待优化。

然而,大部分custom都是为了推理,而当这些custom chip转向训练时,就需浮点支持。“但是如果只用于推理,则可能使用低精度fixed point位数。”Diamantidis表示,“如果模型固定,则是否继续进行推理基础设备上的customization是否意义重大?”他提出了这一疑问。

当然,对google而言,这已成为良性循环。“TPU旨在满足google datacenter内部特定的workload,”Tadikonda说。“最初 google构建TPU,是因为意识到处理如此庞大复杂计算所需建立大量data center。”

并非每家公司都能享受像google那样持续迭代反馈循环。不过其他公司也有选择之路。在这个过程中,“关键点是在尽可能早期关注并重视选择正确架构”,Saha认为。他进一步说明:“不是基于直觉或过去经验做出的决定,因为现在还有太多未知数。行业正在依靠早期阶段利用数据驱动做出决策,这样可以迅速改变方向发现某些东西并不起作用的时候。”

这些决定既宏观又微观,比如存储元素与计算元素差距如何,以及执行内存读取频率如何影响整体能效。行业正在寻求新的架构,没有人知道哪一种才真正有效。不过可以确定的是,要有一定的可塑性,并确保拥有足够的市场信息作为支撑之前决策。

硬件及算法迭代速度快影响架构选择的一个重要因素便是硬件及算法发展速度。这决定了所有者从他们购买硬件中赚钱所需时间、愿意支付价格以及限定开发成本上限。而关于hardware使用寿命长达三到四年,有些激进者可能更换一次,而有些则保持更久。在快速变化的人工智能领域,每隔一年左右发布一次内部硬件更新以针对快速变化工作负载进行优化是一种常见做法。

换角度看,或许每18个月就会有一次进入data center 的机会。不容易搅动这个market —— 更替现有data center chips频率以及添加新物品频率。我几乎看到所有Data Center都试图更新东西,与合作伙伴合作的大部分Data Center Chip制造商一样”。

Market 多久更换一次正在运行中的chips?只要Chips仍然运行,Company 会尽一切努力延长Chip 使用寿命。一旦Chips进入Data Center,其持续时间很长且难以更换。这就是为什么我们看到Large Data Center Chip Field 有大量投资 —— 一部份投资者的想象,是赢家的通吃,将最终只有一个或者几个获胜者获得最大份额。一旦Market被这些公司占领,他们的地位就很难被颠覆。

猜你喜欢