(资料图片)
京东云近日推出了vGPU池化方案,据官方表示,这一方案能提供一站式GPU算力池化能力,使GPU利用率最高提升70%,大幅降低大模型推理成本。京东云凭借自主研发的混合多云操作系统云舰,在原有支持混合多云CPU算力池化能力基础上,针对大模型训练所需的泛算力池化能力,进一步增加了针对AI应用所需的调度管理能力,包括卡管理、节点管理、异构资源调度管理等。这为包括大模型训练在内的多种AI应用,提供了一站式算力池化解决方案,从而全面提升资源利用率。京东云的池化方案具有四大优势:算力切分灵活,支持任意比例切分和动态调整机制,一张物理卡可供多个容器使用,性能衰减在2%以内;精细化配额管理,支持灵活的配额管理,有效保障资源按需分配,提升推理稳定性和训练性能;多场景适配,适配主流CUDA版本和不同GPU芯片适配,支持TensorFlows、Pytorch等行业主流的AI训练框架;多节点管理,支持节点虚拟分组和节点组指定应用使用,全面提升大模型训练效率。在使用场景中,开发者可以根据卡型号申请资源,按算力和显存切分,统一由控制器根据用户指定的调度策略调整。仅在训练、微调和推理任务启动时进行动态分配,在任务结束即可释放,支持多任务算力隔离和任务冷启动。从实践效果看,通过GPU异构资源池化,AI运行效率显著提高,整体GPU利用率提升70%。结合任意切分和按需分配,在同等GPU数量的前提下,实现了数倍业务量扩展和资源共享,降低了硬件采购成本,使用更少的AI芯片支撑了更多的训练和推理任务。