欢迎光临
我们一直在努力

青云以AI智算平台应对算力中心五大挑战

AI引发的算力需求到底有多大?各种预测数据虽然并不统一,但可以肯定的是AI和大模型又将带来新一轮的生产力的变革,在这个技术催生的市场变化中,企业的应用变得更加复杂,业态会更加丰富,底层架构单一的CPU或者GPU已经不能满足需求。总而言之,企业面临的技术和平台挑战将是空前的。

青云科技(qingcloud.com)CEO林源分析说:“从算力建设的角度去看,现在是算力集中建设的阶段。大量的算力中心如雨后春笋般出来,成本和技术是最大的挑战。如果说建设期就是盖机房、购买设备,那么中长期的运营则是更专业、更复杂的问题。这些问题都需要解决,青云也给出了自己的答案,这就是青云最新推出的AI智算平台。”

首先,解决行业多元资源统一调度管理的问题。

在AIGC领域,行业面临的普遍问题是大文本和大量行业数据加速,不同的资源需要统一平台进行管理。比如,一个影视渲染行业的用户,需要渲染一部大电影,他们可以通过青云的平台进行分发,即时构建环境调度需要用到的渲染资源。

在AI训练方面,用户通过开源的人类自然语言模型训练图片、数据,做模型微调,再加上自己的行业知识,也能通过青云统一的多源资源调度管理平台进行分发管理。

对于管理员来说,通过青云的平台,只要通过一个管理界面、一个大屏,就能看到其分布在全国的2000台资源,3000个存储节点等等,以最少的人力大大提升管理运维效率。

第二是解决AI应用的网络瓶颈。青云通过多种方式来解决网络瓶颈的问题。在高速组网方面,青云基于传统的云计算领域,增加了高速网络,并针对不同种类和型号的网卡做了网卡虚拟化和完全的子网隔离,以确保用户无论是按卡申请还是按节点申请,都能保证数据的安全隔离,保证用户之间不存在这种数据的风险。

在通信链路方面,这也是青云在AI算力调度平台着力最多的地方。青云将所有的节点、服务器、存储设备都做出了路径标签,设置最佳路径距离。通过算法,投入调度最短链路,计算最短链路,保证最好是两个节点在一个交换机内,这样不跨交换机,又减少一些数据的传输损耗。

针对AI训练,青云提供了在线训练平台。把高性能计算、GPU卡等汇集成起来,在专属的环境上,提供GPU服务器在线申请构建集群,所有的网络和环境都可一键生成。并且青云会根据行业内常用的模型和小工具,进行集成。同时,青云在每个区域都有一个小型的容器镜像中心,与镜像节点和推理服务进行内网连接,这使得训练过程更快,远比在公网上拉数据等要快得多。

第三,解决环境搭建的复杂性问题。算力中心面向众多的终端用户,这就注定了它的复杂性。在环境搭建方面,青云有两种方式为客户提供常用的镜像或者容器。

第四,解决多业务整合的瓶颈问题。青云目前已将更多的业务以松耦合的模式嵌入整合到青云云平台。

第五,解决运维平台的复杂管理问题。青云提供了更多的运营服务,尤其是算力中心服务。以国家超算济南中心为例,其后端团队,既要运维软件还要负责客户的各类运维问题,这就需要投入大量的人力还耗时耗力。青云通过一套运维平台,让其定价、打折、促销等,只需要在页面上点击按钮就可实现,而不再需要通过申请表的传统方式实现。

赞(0) 打赏
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《青云以AI智算平台应对算力中心五大挑战》
文章链接:http://www.suanliquan.com/1923.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

评论前必须登录!

 

龙泽智能云 - 云安全管理服务商

提供一站式云安全解决方案,使云端部署化简为零,轻松快捷运用云服务

产品官网联系我们

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将提供更多内容,一起创建美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册