台积电芯片之所以那么厉害Google TPUAI新玩家面临的难题又是什么呢

台积电芯片之所以那么厉害,Google TPUAI新玩家面临的难题又是什么?距离 Google 第一代 TPU 助力 AlphaGo 打败李世石已有 5 年,Google TPU 已经更新到。与此同时,数据中心领域的 AI 芯片大热,在大量投资下涌现了不少新玩家,尽管未来是光明的,但新玩家们不得不面对 Google 等大企业雄厚的财力和已经形成的市场格局。

挑战 Google TPUAI 芯片新玩家还会面临哪些难题?围绕这一话题,外媒作者 BRIAN BAILEY 进行了全面而深入的解读。雷锋网对本文进行了编译。

近些年,大量资金涌入到数据中心领域新型 AI 处理器的研发中。但在投资热潮的背后,也要注意到问题所在。毕竟,该领域需要处理的问题是特定的,结果不可预测;且该领域的竞争者们财力雄厚(因为它们往往是巨头),能够提供用户黏性非常强的产品。

对于新型 AI 芯片设计公司而言,最大的问题在于:来自终端的数据不足。需要多少个数据中心才能实现盈利?通常,这些公司在设计一个新的 AI 处理器时,将首先弄清楚如何定义产品灵活性,是专为单一任务而设计还是支持更多工作负载?

这两个问题之间存在一系列解决方案,但与过去许多解决方案相比,为 AI 处理器找到合适解决方案更加困难,对数据中心工作负载而言尤其如此。这就是为什么对于这些定制化程度越来越高、能效和性能更高但可能牺牲市场份额和寿命较短的问题,以及对于多种应用需求、可定制性和灵活性的挑战,我们必须仔细考虑每一个决定。

"芯片自定义将带来优势,但核心是在理解哪种工作负载——芯片自定义确实为许多玩家带来了优势。” Xilinx 人工智能和软件产品营销总监 Nick Ni 表示:“大多数大型企业已经组建了自己的芯片部门,并为其数据中心一些高工作负载打造芯片。”

“其实这里还有很多机会,但是像 Google 这样的孤例并不常见。大多数定制都是面向推理,当这些定制芯片转向训练时,就需要浮点支持。” Synopsys 人工智能产品和研发总监 Stelios Diamantidis 解释道。

“但是如果需要的是一个100% 应用于推理的话,那么它 的固定位数可能是八位甚至更低精度。如果模型是固定的,那么是否有意义进行定制化基础设备上呢?” Diamantidis 提出了疑问,“例如针对语音、视频以及其他重量级应用程序的大规模定制解决方案。”

当然,对于那些能够利用反馈循环优化自己硬件的人来说,如 Google 一样,这是一个良性循环。“TPU旨在满足Google 数据中心内特定的工作负载,”Synopsys 的 Susheel Tadikonda 说,“Google 最初打造TPU,是因为意识到处理如此庞大复杂的大规模计算所需建立大量的大规模数据库。”

并非每个公司都能使用这样的反馈循环。不过其他公司也确实有其他选择。“我们发现,其中一个关键点是在尽可能早期关注并重视正确架构选项,”西门子的 Anoop Saha 说,“所谓正确,并不是指某个人认为正确,也不是基于过去经验凭直觉做出的决定,因为现在还有太多未知因素。”

这些决定既可以宏观也可以微观,比如说,你存储元素与计算元素差距有多大?再比如,有多少次执行一次内存读取,这是一个重要的问题,因为读取写入直接影响整体能效。而业界正在寻找新的架构,没有人知道什么样的架构才真正有效。不过可以确定的是,要有一定的可塑性,而且在决定架构之前,有足够市场数据支撑。

硬件和算法迭代快影响架构选择的一个因素就是硬件和算法发展速度。这决定了所有者的从他们购买硬件中赚钱时间,也限定了开发成本。此外,还有一点,即使只是为了保持市场份额,不断地更新或替换现有的技术也是必要的事务,而这个周期很长,它会持续几年,以至于几乎每两年就会出现一次重大更新。

换个角度看,一旦进入数据中心就很难改变,所以这块市场实际上被几个主要参与者控制着,他们拥有最大的市场份额。一旦被占领,这些参与者的地位就很难被颠覆。这就是为什么人们认为这是赢家的通吃游戏,只要你处于顶尖位置,你的地位就会非常稳固。但同样重要的是,即便是一小部分创新也能改变游戏规则,使得竞争变得更加激烈。在这种情况下,每一步决策都极其关键,因为成功意味着获取更多资源以继续创新,而失败意味着落后并最终退出赛道。

猜你喜欢