腾讯发布星脉网络2.0，让AI大模型训练效率提升20%

发布时间：2024-07-03 11:05:03 332次浏览来源：

　　科技日报记者操秀英

随着大模型的持续迭代，AI基础设施逐渐成为云厂商的核心竞争力之一。7月1日，腾讯宣布其自研星脉高性能计算网络全面升级，网络通信效率比上一代提升60%。升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡，支持超10万卡大规模组网，让大模型训练效率提升20%。这意味着，如果原来训练中某个计算结果的同步需要花100秒完成，现在只需要40秒;原来训练一个模型需要50天，现在则只需40天。

AI大模型就像是一场F1比赛，腾讯云专门设计了星脉高性能算力网络“赛道”，并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”，共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能，助力客户在AI大模型的竞争中遥遥领先。

据介绍，AIGC(人工智能生成内容)的火热推动着AI大模型参数量从亿级到万亿级飙升。模型参数规模与架构升级对底层网络也提出了新的要求。为支撑AIGC中海量数据的大规模训练，大量服务器通过高速网络组成大规模算力集群，互联互通，共同完成训练任务。

然而，集群规模越大，所产生的通信损耗会越高。同时，AI训练的通信模式，与传统的通信模式差异较大，不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%。此外，分布式计算模式也意味着，单点的故障将导致整个集群不可用，因此在故障的时候需要快速定位与恢复训练，把损失降到最低。

如何在大规模组网前提下，提升通信效率、降低通信占比，进而提升GPU的利用率和模型训练效率，是AI网络要解决的核心问题。数据显示，星脉网络2.0可实现大模型训练过程中，网络通信占比(通信时间占总体时间比例)低至6%，远低于10%的业界水平;通信负载率达到90%，与IB网络(Infiniband)持平，相较于标准以太网提升60%。

据悉，腾讯自研星脉网络是一套软硬协同的高性能网络体系，包括自研网络设备、通信协议、通信库以及运营系统四大关键组件，每个组件均采用了业界首创的腾讯关键技术。

目前，腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

点击展开全文

本文链接：http://knowith.com/news-1-1185.html腾讯发布星脉网络2.0，让AI大模型训练效率提升20%

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

腾讯发布星脉网络2.0，让AI大模型训练效率提升20%

相关推荐

新型水凝胶能修复人体受损组织

让更多数据“活”起来

跨境电商出口增长19.6%

这份通信业“成绩单”数据亮眼,我国5G累计投资超过7300亿元

鸿蒙星河版开发者预览正式推出,加速千行百业应用鸿蒙化

北京朝阳：构建互联网3.0全产业链条主导产业集群效应初形成

热点精选

推荐阅读

更多

热门文章

相关阅读

腾讯发布星脉网络2.0，让AI大模型训练效率提升20%

相关推荐

新型水凝胶能修复人体受损组织

让更多数据“活”起来

跨境电商出口增长19.6%

这份通信业“成绩单”数据亮眼,我国5G累计投资超过7300亿元

鸿蒙星河版开发者预览正式推出,加速千行百业应用鸿蒙化

北京朝阳：构建互联网3.0全产业链条 主导产业集群效应初形成

热点精选

推荐阅读

更多

热门文章

相关阅读

北京朝阳：构建互联网3.0全产业链条主导产业集群效应初形成