当各行各业都在加码算力,积极拥抱大模型时,一家头部券商公司却公开“诉苦”:千亿参数大模型训练时,因存储带宽不足,GPU利用率长期低于30%,巨额投入换来的却是“算力闲置”;无独有偶,另一家车企在自动驾驶模型迭代中,因数据读写延迟过高,单次训练周期延长40%,直接拖慢产品落地进度。
算力被视为大模型时代的核心驱动力,但上述情形展现了硬币的另一面,存力的迭代速度已经落后于存力的提升——即便拥有顶级算力集群,若存储性能不足,模型训练速度仍可能被严重拖了后腿。
也正因如此,大模型时代的存储标准正被重新定义。吞吐性能达千万级IOPS、带宽达TB级、时延低至百微秒,支持千亿级参数AI大模型,成为衡量AI存储性能的核心指标。
科大讯飞AI营销在基于大模型推进AI营销业务时,依托于京东云AI存储云海,成功突破存力瓶颈。
过去,科大讯飞AI营销采用“开源分布式存储软件+服务器硬件”搭建。这样带来的问题在于,读写性能不佳,面对十亿级小文件数据量时,读写性能陡然下降;
可靠性不够充分,出于系统安全性考虑,只能将PB级数据量分成多个存储集群,导致训练时数据要频繁的在存储集群进行搬迁,GPU利用率不足50%,直接影响了模型训练效率。科大讯飞AI营销迫切需要一款新型的分布式存储存储支持大模型训练的需要。
在升级京东云AI存储云海后,科大讯飞AI营销实现了一个集群一个文件系统,即可轻松应对多模态大模型时千亿~十万亿参数规模;同时,基于高性能存储层,以及大容量存储层的自动数据分级,在大幅降低存储成本的同时,实现了大模型训练能力的大幅提升,助力AI营销业务降本增效。
除科大讯飞AI营销外,京东云AI存储云海正支持来自银行、证券、汽车、零售等领域超100家大型企业重塑AI生产力。在人工智能竞速的赛道上,算力、算法、数据是三大支柱,而存储则是连接这一切的“隐形桥梁”,京东云支持存储性能与算力同步进化,让AI技术的潜力被真正释放。
评论前必须登录!
注册