降低“卡脖子”风险!上海AI实验室实现千里算力互联训练千亿模型

内容摘要快科技7月20日消息,据媒体报道,上海人工智能实验室(上海AI实验室)发布DeepLink超大规模跨域混训技术方案,并已完成多个项目落地,支持千公里多智算中心跨域长稳混训千亿参数大模型。此举在全球首次实现长距离跨域异构智能算力的高效整合,不

联系电话:400-962-3929

快科技7月20日消息,据媒体报道,上海人工智能实验室(上海AI实验室)发布Deeplink超大规模跨域混训技术方案,并已完成多个项目落地,支持千公里多智算中心跨域长稳混训千亿参数大模型。

此举在全球首次实现长距离跨域异构智能算力的高效整合,不仅可化解全国算力资源分布不均、利用率不高的瓶颈,更可降低AI行业对特定芯片的依赖,一旦出现供应链波动,将为AI产业提供重要的兜底算力支持,避免被“卡脖子”。

上海AI实验室介绍,今年2月,上海AI实验室联合十余家合作伙伴在上海构建了超大规模跨域混训集群原型,完成了千亿参数大模型连续20天不间断训练。随后,该实验室融合中国联通AINET算力智联网,跨越1500公里连接上海与济南的智算中心,成功实现了千亿参数大模型的跨域混训。

“跨域混训”指的是将位于不同地域、基于不同芯片架构(异构)的多个算力集群互联,协同训练同一模型。这种“跨域+异构”模式虽能汇聚更多算力资源,但技术挑战巨大,此前国内外尚无成功用于生产级模型训练的先例。互联障碍往往导致训练效率极低甚至失败。上海AI实验室此次实现了“零的突破”。实测数据表明,其与中国联通合作的跨域混训,等效算力高达单集群单芯片算力的95%以上。

当前,国内算力建设快速发展,但也存在区域间资源分布与使用不均衡的现象(如西部地区部分算力资源存在闲置)。同时,智算中心硬件架构多样化趋势明显。因此,整合和盘活跨域异构算力资源具有重要战略价值。

Deeplink方案创新采用“3D+PS”的高内聚低耦合架构,本质上是“以算法换带宽”。它将大规模训练任务分发至千里之外的智算中心,通过算法创新显著降低对网络带宽的依赖,仅需普通专线网络即可开展大模型训练。该方案还具备高容错性,即使某地节点故障,整体训练仍可持续。

除中国联通外,上海AI实验室还与中国电信、商汤、仪电等智算平台合作。基于中国电信息壤算网,在不足10G带宽条件下,实现了北京、上海、贵州三地智算中心互联和大模型混训,等效算力依然保持在90%以上。理论上,Deeplink支持动态配置数千公里的跨域混训,国内任意两地智算中心均可借此实现算力整合。

中国联通AINET算力智联网在长距无损协议及硬件架构上提供支撑,而Deeplink则在算法和软件层面实现突破。双方合作探索了全国算力高效利用的新路径:将分散的“碎片化”算力聚零为整,形成高价值资源。未来,面对规模激增的AI模型对算力的革命性需求,该方案有望避免新建天价超大型智算中心,转而通过“低成本组合”现有算力中心满足训练需求。

上海AI实验室表示,下一步将深化Deeplink应用,组建算力生态,拓展应用场景,推动方案被更多服务商整合。目标是让用户能便捷地在全国范围内选择高性价比算力,助力全国算力一体化布局。同时,实验室也将面向AI大模型混合推理、分布式强化学习等多元算力需求,持续完善技术方案。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:鹿角

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: