联想AMD AI服务器突破创新界限，DeepSeek大模型单机部署总吞吐高达6708 token/s！-科技快讯中文网

2025

03-17

联想AMD AI服务器突破创新界限，DeepSeek大模型单机部署总吞吐高达6708 token/s！

电脑硬件

jinting

围观1820次

0条评论

发布日期：2025年03月17日 11:43:33

联想AMD AI服务器突破创新界限，DeepSeek大模型单机部署总吞吐高达6708 token/s！

「AMD AI服务器再进化，DeepSeek大模型单机部署刷新记录，惊人吞吐率达6708 token/s！」

　　今日，联想正式发布其首款基于AMD AI架构的大模型训练服务器——联想问天WA7785aG3。该服务器在搭载满血版DeepSeek 671B大模型时，展现出卓越的性能，极限吞吐量高达6708token/s，再次刷新了单机运行大模型的性能上限。这一成果不仅彰显了联想在AI基础设施领域的深厚积累，也体现了其快速响应的技术创新能力。在全球AI算力竞争日益激烈的背景下，联想凭借这款产品再度确立了行业的领先标准。

联想AMD AI服务器突破创新界限，DeepSeek大模型单机部署总吞吐高达6708 token/s！

　　软硬协同打造业界性能新标杆

　　借助联想万全异构智算平台，联想针对大模型的预训练、后训练及推理全流程进行了系统性优化。通过访存优化、显存调优、采用PCIe5.0全互联架构创新设计，以及精选SGLang框架中性能最佳的算子等手段，联想在搭载DeepSeek671B大模型的问天WA7785aG3设备上实现了高达6708token/s的实测最高吞吐量。

　　在模拟问题对话场景中，当上下文序列长度为128或1K时，系统能够支持高达158的并发数，其吞吐量表现优秀，TPOT达到93毫秒，而整体端到端延迟TTFT仅为2.01秒。相比之下，在处理模拟代码生成任务时，尽管上下文序列长度增加至512或4K，系统的并发能力略有下降，但仍能维持140的并发数，TPOT略增至100毫秒，但TTFT显著提升至5.53秒。从这些数据可以看出，该系统在不同应用场景下的适应性较强。问题对话场景中的高效性能表明它非常适合需要快速响应的实时交互任务，而代码生成场景虽然延迟有所增加，但也展示了其在复杂任务上的潜力。这说明该技术在面对更长输入时，对计算资源的需求会相应提高。未来若能进一步优化长文本处理效率，相信其在更多领域的应用前景将更加广阔。总体而言，这样的表现值得肯定，尤其是在人工智能技术日益普及的今天，这种高效稳定的性能对于推动行业进步具有重要意义。

　　这一成绩表明单台联想问天WA7785aG3服务器能够满足1500人规模企业的日常需求，这是继联想问天WA7780G3服务器在单机部署满血版DeepSeek大模型时实现每秒2500token吞吐量的突破之后，再次刷新了单机部署该大模型推理性能的新高。在我看来，这一技术突破不仅彰显了国产服务器在高性能计算领域的持续进步，也进一步证明了国产硬件与人工智能模型结合的潜力。随着企业数字化转型的加速，这种高效的计算能力无疑为企业提供了更可靠的技术支持。同时，这也为未来更大规模的应用场景打下了坚实的基础，展现了国产科技企业在推动技术创新方面的决心和实力。

　　此次突破由联想中国基础设施业务群、联想研究院ICI实验室以及AMD联手打造，通过紧密合作与协同优化共同达成。尽管这一成果令人振奋，但它并不是终点，而是双方合作的新起点。联想与AMD仍在不断探索更深层次的技术调优方案，力求在性能上取得更大的飞跃。我的看法是，这种跨领域的深度合作展现了科技企业在面对挑战时的创新能力和决心。联想和AMD的合作不仅推动了技术的进步，也为行业树立了一个良好的榜样。未来，随着更多类似的合作出现，我们有理由相信，技术创新的步伐将会更快，成果也会更加显著。希望双方能够继续保持这种开放合作的态度，为用户带来更多惊喜和价值。

　　硬核配置构筑强大DeepSeek算力底座

　　联想问天 WA7785a G3服务器是联想与AMD双方深度合作的智慧结晶，正是双方通力合作带来的技术创新、软硬协同能力与架构突破为DeepSeek-R1满血版大模型插上性能腾飞的翅膀。

　　高性能计算平台：联想问天WA7785aG3配备了两颗AMD处理器以及八颗AMD最新一代Instinct OAM GPU，为大模型训练与推理任务提供了卓越的算力支持。海量显存配置：WA7785aG3具备超大显存容量，每块GPU的HBM3e显存容量高达192GB，整体达到1.5TB。如此庞大的显存不仅能够支持完整的模型推理，还能保留足够的KV缓存空间。同时，其显存带宽高达5.3TB/s，GPU聚合带宽达896GB/s，节点间的网络带宽更是达到3.2TB/s，这些特性为推理解码提供了极致加速效果，完美契合大模型并行计算对高带宽的需求，使其成为用户优先选择的大模型推理服务器。创新架构设计：联想问天WA7785aG3的特殊架构设计在释放算力潜力、突破带宽瓶颈方面起到了至关重要的作用。该服务器采用三重独立风道设计，分别针对CPU节点、GPU节点及交换机节点实施精准散热管理，提升了散热效率，为设备的稳定性与可靠性奠定了坚实基础。

　　未来，联想将继续深化与产业链伙伴的技术合作，通过架构创新、算法优化以及硬件技术的突破，不断提升AI算力的性能极限，为不同行业提供高密度、低能耗且易于部署的算力解决方案。这一系列努力不仅能够推动AI算力朝着更加高效、普惠和可持续的方向发展，还将为中国智算产业注入新的活力，进一步夯实数字经济发展的技术底座。我认为，联想此举意义重大。在当前人工智能快速发展的背景下，算力已成为推动技术创新和产业升级的关键要素。而联想选择从架构到硬件全面发力，既体现了其对市场需求的敏锐洞察，也展现了其作为科技领军企业的责任担当。尤其在“双碳”目标的大环境下，如何降低能耗、提升效率成为行业共同面对的课题，而联想提出的解决方案无疑为行业发展提供了新思路。同时，这也表明，只有坚持开放合作、协同创新，才能真正实现技术红利的广泛共享，让AI真正惠及更多领域和人群。这不仅是企业竞争力的体现，更是推动社会进步的重要力量。

首页 > 电脑硬件

2025

03-17