芯片是指什么它在双十一背后的AI推荐系统中扮演了什么角色价值千亿的秘密之源

在双十一背后的AI推荐系统,价值千亿的秘密之源。芯片是指什么?它在这背后扮演了什么角色?

天空为什么是蓝的?萤火虫为什么可以发光?为什么双眼总是一起转动?面对小朋友的十万个为什么,父母、老师总会借助储备的知识,或者查阅书籍解答疑问。但随着内容的爆发性增长,想要得到一个问题精准的答案难度越来越大。

早年使用网上购物平台的用户,需要一步步根据商品的分类搜索,才能在海量的商品中找到适合自己的商品。2022年的双十一,普通消费者不仅可以轻轻松松就筛选出自己想要的商品,还会收到非常符合自己喜好的商品、直播推荐。这背后隐藏了推荐系统的大变迁,在小朋友问父母问题时,小朋友其实就充当的是父母的问题解决者,但普通人的知识储备毕竟有限。

互联网时代,有了搜索引擎,但还不足够。再后来,AI技术兴起,让推荐系统大步前进,无论是购物平台上的商品推荐还是直播平台上的主播推荐,都让人感叹:AI更懂自己。

然而,这些高价值AI技术目前只被少数公司负担得起,而如何才能实现普及,以及我们又能合适拥有完美AI系统呢?

推荐系统并不新鲜,它们为了提升业绩和客户满意度,就开始研究与应用。在早年的方法中,比如协同过滤等,用CPU已经足以满足需求。但随着算法和应用需求升级,这些传统方法无法满足复杂性的提升,对于服务器规模进一步扩展也变得困难。这促使推动者寻找更强大的底层算力支撑——即GPU(图形处理单元)。

引入深度学习之后,不仅需要更多数据进行训练,而且这些数据存储和计算都极为巨大。而GPU正好提供了内存带宽远高于CPU,同时带宽比CPU高非常多,我们现在Hopper架构GPU带宽已经达到3TB/s。

但要加速这些复杂任务,不止是在从CPU迁移到GPU这么简单。嵌入表包含各种特征,如性别、年龄等,以便神经网络处理,大到TB级。此时采用GPU有两个显著优势:一是内存带宽远高于普通服务器;二是通信速度提升几倍,从原来PCIe通信变成了NVLink通信。

接下来就是用模型进行计算,此时可能计算密集也可能内存密集,更麻烦的是,由于模型越来越大超出了板载存储容量,只能分块嵌入表做模型并行,而DNN部分需要数据并行。在这个过程中,从模型并行到数据并行需要大量节点间交换,这成了大量计算节点间密集通信的一个挑战。

加速计算不是简单硬件或软件,而是一个包含硬件、软件以及上层应用的一整套解决方案。比如英伟达推出的NVIDIA Merlin,可以预处理,加速嵌入表训练,并且性能表现十分突出,在DGX-A100上实现了惊人的683倍加速。

尽管如此,加速普及依旧面临两大挑战:差异化需求以及门槛太高。大型企业有成百上千人的团队专注此事,而中小企业很难投入如此资源。但通过合作开放API,有一些预定义模型能够实现不错效果,只需投入几个数据科学家,即可帮助普及。此举将代表加速巨大的想象空间,为未来10年100倍增长奠定基础,将值千亿美金现实转化为数字世界中的无限可能。

猜你喜欢