1U四卡革新突破:昆仑芯超节点引领高密算力新时代
在大模型参数量激增、训练与推理需求同步增长的背景下,“超节点”正逐渐成为下一代人工智能基础设施的关键发展方向。
超节点作为一种创新的算力解决方案,与传统AI服务器相比,展现出更为强大的算力整合与数据传输能力。它通过采用高性能协议,在内部构建起高带宽域(HBD),不仅提升了AI加速卡之间的连接效率,还成功突破了8卡和16卡规模的传统限制。这种设计使得超节点能够在极低延迟的情况下实现算力的无缝扩展,为复杂计算任务提供了更高效的运行环境。我认为,这种技术的进步不仅标志着人工智能硬件领域的一次重要革新,也为未来更大规模、更高性能的人工智能应用奠定了坚实的基础。随着更多应用场景的需求增长,相信超节点将在推动AI技术发展方面发挥越来越重要的作用。
1.百度在 AI 服务器领域设计和部署的历程
百度凭借十多年的服务器设计与部署经验,在OCP(Open Compute Project)计算项目中发挥着重要作用。它不仅将自己的AI技术优势与OCP项目成员分享,还与其他成员共同致力于打造一个开放的AI硬件生态体系。此外,百度与Facebook、微软等巨头携手合作,共同制定了OAM(OCP Accelerator Module)标准。早在2011年,百度便推出了第一代北极整机柜服务器(即“天蝎”整机柜),这一创新为行业树立了标杆。 从我的角度来看,百度在推动开放计算项目的进程中展现了强大的技术实力和前瞻性的视野。通过与全球顶尖企业合作,百度不仅提升了自身的技术影响力,也为整个行业的标准化进程作出了积极贡献。特别是在AI加速模块和整机柜设计上的探索,为未来数据中心的发展提供了更多可能性。这种开放共享的态度无疑会促进技术创新和产业链协同发展,值得其他科技公司借鉴学习。
在人工智能与大模型蓬勃发展的背景下,百度专为GPU计算场景打造的超级AI计算机X-MAN,为百度集群的各项AI业务落地提供了强大支持。2022年,百度借助X-MAN4.0构建了国内首个采用全IB网络的千卡级GPU集群,这一成果为2023年初百度文心一言的推出奠定了坚实基础。到了2025年,X-MAN5.0再度发力,助力昆仑芯P800实现三万卡集群的成功部署。
在2025百度AI开发者大会Create2025上,百度智能云推出了昆仑芯超节点产品。与传统采用8卡服务器的算力部署方式不同,昆仑芯超节点在一个机柜内集成了64张昆仑芯XPU芯片,卡间互联带宽提升了8倍,单机柜的整体训练性能提高了10倍,单卡推理性能更是提升了13倍。这意味着,如今一个机柜的算力就相当于过去上百台设备的总和。
为保障昆仑芯超节点这一新型算力形态的成功落地,百度天池AI高密液冷整机柜在机柜架构、计算模块、网络连接、电源散热以及设备管理等多个方面进行了创新优化。这使得昆仑芯超节点能够以32/64卡为最小算力交付单元,形成一套拥有高算力密度、高可靠性、易维护及便捷部署特性的系统,并且可以支持万卡规模的集群网络互联。
百度天池AI高密液冷整机柜为昆仑芯超节点提供了强大的技术支持,使其能够实现1U4卡的超高密度算力交付模式,极大地简化了运维工作,单节点甚至可以由一人轻松完成维护。这种创新设计不仅显著降低了核心芯片的温度,提升了20℃以上的散热效率,还为XPU创造了更加稳定可靠的运行条件。此外,该系统具备极强的适应性,无论是传统的风冷机房还是复杂的供电环境,都能顺利部署并高效运行。这不仅体现了技术上的突破,也展现了企业在绿色节能与高效运营方面的前瞻布局。未来,这样的解决方案无疑将助力更多企业以更低的成本获得更强大的算力支持,同时推动整个行业的可持续发展。
2.昆仑芯超节点分模块介绍
2.1. 机柜
昆仑芯超节点依托百度天池系列AI高密度液冷整机柜,支持整柜一体化交付模式。其采用水、电、网三重盲插设计,在无需精确对准的情况下实现组件的快速且可靠的连接。即使是普通的运维人员,初次接触该产品也能轻松完成上架和运维工作。与传统的风冷标准服务器交付方式相比,这种设计能够显著减少业务上线所需的时间。
昆仑芯推出的超节点机柜在空间利用率方面达到了前所未有的高度,显著提升了算力密度。比如,在典型的64卡配置下,传统方式需要8台8U规格的风冷AI服务器,占据整整64U的空间。然而,通过昆仑芯的整机柜设计方案,同样的算力需求只需28U即可满足,具体包括16个1U Compute Tray、8个1U Switch Tray以及2个2U Power Shelf,这种布局让机柜的空间使用效率翻倍,不仅大幅提高了数据中心的部署密度,还有效改善了整体能效表现。 这一创新无疑为当前追求高效节能的数据中心提供了新的解决方案。随着人工智能计算需求的不断增长,如何在有限的空间内实现最大化的算力输出成为了一个关键课题。昆仑芯超节点机柜的出现,不仅解决了物理空间紧张的问题,同时也降低了能耗成本,这对于推动整个行业的绿色发展具有重要意义。未来,期待更多类似的技术突破,助力构建更加智能且可持续发展的数字基础设施。
2.2.计算节点(Compute Tray)
高算力、大带宽和强互连是昆仑芯超节点设计的关键目标。如何在空间和功耗限制内实现算力密度的最大化提升,始终是我们优化设计的核心任务。
依托百度多年在整机柜架构设计上的技术积累与工程经验,我们采用 1U 单节点 4 卡液冷方案,相较传统 AI 服务器的 8U 8 卡设计,算力密度提升了 4 倍。
AI算力被视为「高投入」领域,不仅因为其高昂的成本,还与其物理重量密切相关。传统8卡GPU服务器整机重量通常达到120公斤,安装时需要四人协同作业。然而,昆仑芯超节点凭借1U轻量化设计,单节点仅需一人便可轻松完成维护工作,显著提升了数据中心的运维效率。
采用21英寸标准1U架构设计的计算节点,其前置I/O接口高度集成,能够灵活适配百度太行DPU、四张网卡、四块NVMe硬盘、两个M.2接口,以及HBA卡或RAID卡等多种配置方案,全面契合复杂多样的算力应用场景需求。
计算节点采用模块化设计,CPU 板、PCIe Switch 板与 GPU 板相互解耦,支持国产化 CPU 平台,具备极高的灵活性与可扩展性。
每个节点都配备了双PCIe Switch芯片,借助双上行链路与CPU实现高速互联,从而构建起一种1:1无阻塞的互联架构。这种设计不仅显著提升了系统的调度效率,还大幅降低了通信时延,从根本上解决了数据传输中的瓶颈问题。这一创新技术的应用,标志着现代计算系统在性能优化方面迈出了重要一步,为未来数据中心的高效运行提供了坚实的技术保障。我个人认为,这种架构的推出,不仅是对现有技术的一次重要突破,也为行业树立了新的标杆。它让我们看到,在追求高性能计算的道路上,硬件层面的持续优化和创新依然扮演着不可或缺的角色。同时,这也提醒我们,只有不断探索和实践,才能真正解决实际应用中的痛点问题,推动整个行业的进步与发展。
2.3.交换节点(Switch Tray)
在 AI 基础设施中,网络互连不仅仅是连接,而是性能的延续和扩展。随着大模型训练、推理任务对多卡协同和跨节点通信的依赖不断增强,互连带宽和拓扑结构的优劣,直接决定了系统整体算力的天花板。
昆仑芯超节点在设计上突破了传统单机 8 卡互联的架构限制,创新性地引入多 Switch 通信结构。以 32 卡为例,可以通过 4 台 Switch Tray 模块实现算力全互联,构建出一个 Scale-Up 域规模为 32 卡的统一算力池。
昆仑芯超节点的全互联架构设计实现了任意两张XPU之间的1跳通信路径,这一创新大幅减少了通信延迟,提升了带宽利用率。相较于传统树状或分层拓扑结构,这种设计方案在AllReduce、Alltoall等高频通信场景中表现出更高的效率和更强的扩展性。在面向大规模集群的Scale-Out网络布局上,昆仑芯超节点同样展现了前瞻性的规划思维。每个计算节点配备4个PCIe网卡扩展槽位,采用XPU与NIC 1:1绑定的设计,支持每节点接入最多4张400G网卡,这不仅满足了当前高性能计算的需求,也为未来更高带宽的应用场景预留了充足空间。 结合百度智能云自主研发的HPN(High Performance Network)架构,昆仑芯超节点能够灵活应对从数百卡到上万卡规模的XPU集群部署,为AI大模型训练提供了稳定且高效的网络支持。这种设计既兼顾了性能表现,又具备良好的可扩展性,无疑将成为推动AI技术进步的重要基石。在我看来,昆仑芯超节点的成功推出不仅体现了国产芯片企业在技术创新上的突破,也标志着我国在高性能计算领域逐步走向成熟。未来,随着更多应用场景的落地,相信昆仑芯超节点将进一步巩固其在行业内的领先地位,并助力更多企业和科研机构在人工智能领域取得更大的成就。
2.4.供电单元(Power shelf)
电源作为整机柜的核心部件,其布局方式在昆仑芯超节点上展现出独特的创新。不同于传统AI服务器中电源模块(PSU)集成于计算节点的设计,昆仑芯超节点采用了一种全新的架构:所有电源模块被集中安置在Powershelf中,并通过这一集中式供电方案为整个系统提供电力支持。这种设计不仅提升了系统的整体效率,还为实现昆仑芯超节点的高密度部署提供了有力保障。
昆仑芯超节点凭借其创新设计,单个Powershelf的高度仅为2U,却内置了12个PSU电源单元,支持高达102的电源冗余,同时采用了先进的双输入ATS技术。这种设计不仅提升了系统的可靠性,还通过优化电源配置实现了显著的效率提升。与传统的单输入电源PSU相比,新方案在保证性能的同时,电源数量减少了40%,这无疑是对资源利用的一次重大突破。 在我看来,这种技术创新体现了现代科技产品在追求高性能的同时,对节能环保的关注也达到了新的高度。尤其是在数据中心等高能耗场景下,这样的设计不仅能降低运营成本,还能减少碳排放,为可持续发展贡献了一份力量。未来,希望更多企业能够借鉴这种思路,在产品设计中兼顾性能与环保,共同推动行业的绿色转型。
Powershelf提供3300W和5500W两种电源规格,通过并联设计,可实现单柜33kW到120kW的供电能力,能够为500W至1000W的XPU/GPU设备提供电力支持,充分满足当前主流AI机柜的功耗需求。此外,其供电模块兼容ACAC、ACDC、DCDC三种机房冗余供电模式,可以适配传统及新建等多种类型的机房供电环境。
2.5.散热模块
昆仑芯超节点创新性地采用了液冷与风冷结合的混合散热方案,有效应对高功耗和高密度散热的难题。其中,CPU及XPU模块通过液冷技术进行散热,而网卡、内存以及SSD等部件则使用风冷方式进行散热。
在液冷系统中,我们采取了微通道冷板液冷技术及并联水路设计,通过精准调控冷却液流量与流速,最大化 XPU 和 CPU 的散热效率。实验结果表明,该液冷设计可使 XPU 温度下降 20℃ 以上,相较传统风冷系统,减少因为高温导致的 XPU 故障,显著提升系统的热稳定性与能效比。
在风冷系统的优化设计中,我们对GPU服务器的布局进行了调整。通常情况下,主流设计会将RDMA网卡(例如Mellanox CX7)放置于热通道。然而,400G网卡所使用的光模块对温度较为敏感,过高的温度可能引发CRC错误,进而导致网口不稳定或网络连接中断等问题。根据Meta发布的Llama3.1训练技术报告,因网卡及网络问题导致的任务中断比例达到了12%。基于这一情况,昆仑芯超节点将计算节点中的RDMA网卡、VPC网卡等设备部署在冷通道,以降低因散热不足引发的故障概率,从而提升整个集群的稳定性与可靠性。
通常情况下,百度智能云推出的昆仑芯超节点液冷机柜采用了自研的冷却分配单元(CDU)——天玑1.0技术。这一创新方案使得昆仑芯超节点能够轻松适配传统的风冷数据中心环境。只需在每个机柜旁配备一台天玑1.0设备,即可实现高效冷却,从而支持昆仑芯超节点的顺利部署。
2.6.管理模块
昆仑芯超节点采用了行业前沿的双层带外管理架构,通过机柜级RMC(Rack Management Controller)与节点级BMC(Baseboard Management Controller)的协同工作,涵盖计算节点、互连模块、电源模块以及散热模块,从而实现全流程的智能运维管理。
RMC拥有智能电源管理、液冷系统保护、资产管理以及预测性运维等关键技术,为整机柜系统提供坚实稳定的运行支持。
BMC具备对关键组件故障进行实时监控与告警的功能,涵盖CPU、内存、XPU、网卡/DPU、硬盘、风扇以及主板等多个核心部件。此外,它还支持节点漏液检测,并提供一键式日志分析以实现精准故障定位。通过这些功能,BMC可以有效预测并规避潜在风险,减少系统停机时间,进一步提高运维效率。
3.结语
百度智能云通过推出昆仑芯超节点,进一步巩固了其在AI基础设施领域的领先地位。这款全新设计的整机柜在算力密度、能效表现以及部署灵活性方面取得了显著突破,能够为AI大模型的训练与推理等多样化任务提供卓越的支持。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.014866秒