头部芯片厂商在大模型领域竞争正进入软硬件、算力、网络的“全栈式”比拼态势——英伟达拔得AI生态头筹之下,英特尔、AMD等厂商不愿落于人后,在应用场景中除了数据中心也瞄准边缘用途,芯片算力之外还看重网络能力。
参数是通用AI大模型最重要的指标之一。2022年4月公布的PaLM大模型训练参数高达5400亿,而2021年发布的LaMDA参数为1370亿,ChatGPT背后的GPT-3.5模型参数为1750亿。
(资料图片)
近日,英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti对界面新闻表示,在云端训练大模型,单个服务器已无法承载,对网络需求的高要求前所未有,“我们训练一个大模型就需要5-20万台服务器,需要通过网络来把这些服务器连接起来然后进行训练,这个量是非常大的。”
AI计算大致分为两个层面,首先是对模型进行训练(training),整个过程可能耗时数天或数周;之后是训练出的模型做出推理(inference)。
在训练大模型的过程中,网络的重要性已成业界共识。根据中国移动通信研究院发布的《面向AI大模型的智算中心网络演进白皮书》测算,以1750亿参数规模的GPT-3模型训练为例,从理论估算模型分析,当动态时延从10us提升至1000us时,GPU有效计算时间占比将降低接近10%;当网络丢包率为千分之一时,GPU有效计算时间占比将下降13%;当网络丢包率达到1%时,GPU有效计算时间占比将低于5%。“如何降低计算通信时延、提升网络吞吐是AI大模型智算中心能够充分释放算力的核心问题。”白皮书指出。
对此,英特尔中国区网络与边缘事业部首席技术官张宇解释称,在训练大模型时,模型参数存储于加速器(如GPU显卡)的片外缓存中,随着训练进程对模型参数进行不断更新迭代。同时,不同加速器之间需要进行频繁且大量的数据交换,且只有在数据交换完成之后,才能够去算下一步的训练结果。
“但如果数据交换更新没有结束,训练也不会计算。”张宇说,“所以从中我们可以看到算力和网络能力,对大模型整体性能是两个关键要素。”
从推理端来看,张宇提及,AI模型的部署大部分在边缘场景,算力、功耗、成本往往都有限,不像数据中心可以无限增加设备。因此,如何在一个资源受限的情况下去部署大模型,是基础设施厂商需要考虑的重要问题,网络端的考虑点同样不少。
“如网络模型压缩问题,如果你把大模型原封不动的放在边缘的话对算力要求太高,很多设备是无法承受的。”张宇表示,对于大模型在推理端的应用,需要根据行业特定要求进行优化,使得简化后的模型既满足特定行业对准确度、功能的要求,所需的算力又能够被边缘设备所承载。
对于大模型在边缘的应用上,英特尔除了提供CPU、独立显卡等芯片,满足人工智能模型训练、推理对算力的要求外,还有针对网络的IPU(Infrastructure Processing Unit)产品。张宇称,IPU给用户提供一个可靠的数据传输环境,可满足大模型训练对网络可靠性、丢包率的严格要求,以及对网络速度的要求。
“在大模型这一块,和一些友商相比,英特尔的产品实际上涵盖了计算、通讯等各个领域,给用户提供了一个相对来说比较全面的方案。”张宇称。
在更考验计算力的AI训练领域,英伟达的优势在于牢牢占据大模型训练的主流市场。此外,英伟达持续推进GPU(图形处理器)、CPU和DPU(数据处理器)的“三芯”策略。其中DPU用于处理海量数据,可以做一些数据的处理和预处理,由DPU将任务分发给CPU、GPU和FPGA等进行计算,定位与英特尔的IPU一致。
伴随AI市场的驱动,英特尔的大客户也在加入竞争。2016年,谷歌专门为深度学习打造了TPU(张量处理器),部署在谷歌云平台中,以服务的形式售卖。亚马逊云计算部门也有自研Arm芯片架构服务器CPU,结合用于训练和推理的AI芯片、自研网络芯片等,构成了云计算环境下的芯片布局,可用于大模型计算。
张宇强调,除了硬件端,软件也很重要,如英特尔的OpenVINO、OneAPI等软件和组件,可以供开发者方便使用,“用户使用CPU,是因为现有软件能够充分支持,即便这达不到最佳性能。”他称在大模型领域,凭借前期投资和生态搭建,英伟达基于GPU的CUDA软件生态,已经成为开发者用于大模型乃至AI开发的首要选择。
(文章来源:界面新闻)