首页 > 科技资讯
2025
02-26

DeepSeek开源进展:揭秘深度学习新星DeepGEMM的秘密

科技资讯
jinting
围观1195次
0条评论
发布日期:2025年02月26日 09:32:44

DeepSeek开源进展:揭秘深度学习新星DeepGEMM的秘密

揭开DeepGEMM神秘面纱:深度学习领域的新突破即将改变游戏规则

   2月26日更新,DeepSeek“开源周”活动进行到第3个阶段:发布了适用于稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库,旨在支持V3/R1模型的训练与推理需求。

   在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 性能

   无复杂依赖,代码简洁如教程

   完全采用即时编译技术(Just-In-Time)

   核心代码仅约300行,在大部分矩阵尺寸下超越了专家优化的内核。

   支持密集布局和两种 MoE 布局

   附开源链接:https://github.com/deepseek-ai/DeepGEMM

   官方介绍大意如下:

   DeepGEMM是一款专为高效且清晰的FP8通用矩阵乘法(GEMM)设计的库,融合了DeepSeek-V3提出的精细缩放技术。它不仅支持标准的GEMM操作,还支持Mix-of-Experts (MoE) 分组GEMM。

   该库采用CUDA技术开发,安装过程中无需预先编译任何组件。相反,它利用轻量级的即时编译(JIT)模块,在程序运行时动态生成所有的内核。这种设计不仅能够减少存储需求,还允许开发者针对特定硬件进行优化,从而提高性能。我认为这样的即时编译技术是一个非常聪明的设计选择,它使得库更加灵活且适应性强,能够在不同环境下实现最佳性能。

   目前,DeepGEMM仅支持NVIDIA Hopper架构中的张量核心。为了解决FP8张量核心在累加过程中可能出现的精度问题,它采用了CUDA核心的两级累加机制来提升计算准确性。尽管DeepGEMM受到了CUTLASS和CuTe项目的一些启发,但它并没有完全依赖这些项目的模板或代数结构。这种方法不仅增强了算法的灵活性,还展示了在高性能计算领域内如何创新地解决现有技术局限性的潜力。 这种设计思路表明,在追求更高性能的同时,开发人员也在积极寻找解决方案以克服硬件带来的限制。这不仅是对现有技术的一次重要突破,也预示着未来可能有更多的软件创新来适应不断发展的硬件平台。这样的进展对于整个行业来说都是一个积极信号,意味着我们正朝着更加高效且准确的计算解决方案迈进。

   DeepGEMM的设计十分精炼,其核心内核函数仅包含约300行代码,这使得它成为学习Hopper架构中的FP8矩阵乘法以及相关优化技术的理想选择。对于那些希望深入理解现代GPU计算和优化策略的开发者来说,这样的设计无疑提供了一个易于上手且高效的起点。 通过简化复杂的算法实现,DeepGEMM不仅降低了初学者的学习门槛,同时也为有经验的工程师提供了一个清晰透明的框架,以便于他们进一步探索和实验各种优化技巧。这样的设计思路体现了软件工程中的一个重要原则:简单性与可维护性并重。在当前快速发展的技术环境中,能够以简洁明了的方式表达复杂概念的工具,无疑会受到更多开发者的欢迎。

   尽管采用了轻量级的设计,DeepGEMM在各种矩阵尺寸上的性能表现不仅能够媲美那些经过专家精心优化的库,甚至在某些情况下还超过了它们。这种突破性的进展表明,即使是在资源受限的环境中,我们也能期待看到高性能计算解决方案的进步。 这一成果令人振奋,因为它展示了通过创新算法设计,我们可以突破传统限制,实现更高效能的计算。这不仅对学术研究有重要意义,也意味着工业界可能很快就能获得更加灵活且高效的工具来应对复杂的计算任务。此外,这也预示着未来计算领域的更多可能性,可能会引发新一轮的技术革新。

   我们在H800上,使用NVCC12.8对DeepSeek-V3/R1推理过程中可能涉及的各种矩阵形态(涵盖预填充和解码阶段,但不包含张量并行)进行了测试。所有加速效果均基于我们内部深度优化的CUTLASS3.6版本进行对比计算。

   DeepGEMM在特定矩阵尺寸下性能表现较为逊色,我们诚邀感兴趣的开发者提交优化建议和代码补丁。

本文固定链接: https://www.news9999.cn/arts_content-54981.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 华为智能基站革新:动态波形技术引领效率革命  2025-07-19 11:09:45 AI界新王者登场:OpenAI o3-alpha震撼发布,碾压Sonnet与Grok4  2025-07-19 09:54:00 仅一家厂商定档9月底发布第二代骁龙8至尊版旗舰,10月战火将燃  2025-07-19 09:50:45 挑战谷歌?Perplexity拟在手机预装AI浏览器破局  2025-07-19 09:47:04 纳米刺客出击:中科院首创肿瘤细胞自毁新策略  2025-07-18 14:25:51 极端高温引爆住院潮,2100年或现510万热伤人群  2025-07-18 14:21:10 1599元起!WIKO Hi畅享80 Pro震撼上市:6100mAh超长续航+鸿蒙生态加持  2025-07-18 13:46:14 荣耀 X70 首发价1399元起,七大旗舰黑科技全面下放  2025-07-18 13:45:31 三星首款三折叠旗舰搭载骁龙8至尊版,One UI 8曝光新机配置  2025-07-18 13:44:54 像素蛋糕发布方糖大模型:让灵感瞬间转化为生产力  2025-07-18 13:32:42 荣耀X70震撼登场:全球首部金标三防手机+8300mAh巨能电池,1189元起抢购!  2025-07-18 13:30:00 酷冷至尊 MasterHUB 上线:2699 元解锁模组化全能操控新体验  2025-07-18 13:28:55 铭匠首发布局:AF 23mm F1.8 索尼E口镜头震撼来袭,仅630元起!  2025-07-18 13:28:20 11699美元挑战极限!Ryzen Threadripper PRO 9000 WX系列顶配96核震撼上市  2025-07-18 13:13:44 共享充电宝:下一个移动安全隐患?  2025-07-18 13:10:59 苹果CarPlay Ultra首现阿斯顿·马丁DB12 Volante,豪华座舱开启智能新纪元  2025-07-18 13:03:39 小米TCL华星共建十年 创新实验室二期启航引领国产显示新未来  2025-07-18 13:00:24 华为MatePad Pro 12.2震撼登场:四边极窄设计+麒麟9020A引领未来平板新潮流  2025-07-18 12:59:06 5秒速联,国铁HXD1C机车开启无线重联新纪元  2025-07-18 12:54:25 AirPods依旧霸榜,但增长遇冷:美国iPhone用户耳机偏好新趋势  2025-07-17 11:26:44 物理AI崛起:黄仁勋预言下一个科技浪潮  2025-07-17 11:21:27 苹果iPhone 17 Pro/Max将首配抗刮防眩光黑科技,量产难题已突破  2025-07-17 10:46:42 谷歌官宣8月20日重磅发布,Pixel 10系列或将引领智能手机新潮流  2025-07-17 10:46:11 OPPO K13 Turbo 首发水冷风扇黑科技,手机散热迎来新革命  2025-07-17 10:45:39 印航客机黑匣子惊现关键操作:机长关闭燃油开关引热议  2025-07-17 10:43:25
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.0077秒