中国电信引领AI技术新飞跃:千卡、千亿参数模型500公里高效联合训练再次刷新纪录!
1月23日获悉,根据中国电信的报道,在集团公司的统一安排下,中国电信研究院、天翼云和北京电信成功完成了业界首个涉及1024块GPU卡、千亿参数的商用大模型分布式联合训练的真实用户试商用。
通过天津市武清区至北京市大兴区瀛海镇之间的实际光路环回,实现了500公里长距离互联分布式训练,且训练性能达到了单数据中心的97%以上。
本次试商用基于北京现网的800G广域智联无损网络,以及息壤一站式智算服务平台,在互联距离、带宽收敛比、模型参数等方面取得了显著进展,实现了多数据中心之间的高效互联与资源整合,从而支持商用模型的分布式联合训练。 这一突破不仅标志着我国在高性能计算和网络技术领域迈出了重要一步,也为未来的大规模数据处理和智能计算提供了强有力的技术支撑。通过这种创新的技术应用,不仅可以大幅提高计算效率,还能有效降低运营成本,为各行各业的数字化转型提供更加坚实的基础。
在中国电信的广域智联无损网络技术方面,该公司通过创新的广域无损调度算法以及关键帧识别技术,成功地将带宽收敛比提高到了32:1。这一进步不仅提升了网络效率,还确保了数据传输的完整性。此外,中国电信还推出了WSON50ms极速倒换技术,使得在长距离链路发生中断时,用户几乎不会察觉到任何变化,从而实现了无缝切换。这些技术创新不仅展示了中国电信在网络技术领域的领先地位,也为未来的网络发展提供了新的方向。
该系列技术有效应对了长距离传输中的网络拥塞和丢包问题、链路故障问题以及建网成本问题,确保了训练过程的稳定性和高效性。
在500公里的长距离传输下,网络传输速率依然维持在较高水平,为千卡千亿参数商用大模型的协同训练提供了稳固的网络支持。
与此同时,息壤平台具备算力插件、跨区域算网协同、跨数据中心自动并行、断点续训等核心技术,确保在故障发生时能够实现秒级定位、分钟级处理与恢复,从而保障了百川千亿参数商用模型的迅速部署和稳定高效的运行。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008115秒