MoE架构革新,训练成本骤降40%,字节跳动豆包大模型团队引领AI技术新风潮
3月10日消息,字节跳动豆包大模型团队宣布开源一种针对MoE(混合专家模型)架构的重要优化技术,该技术能够将大模型训练效率提升1.7倍,并且成本降低40%。据了解,这项技术名为COMET,已在字节跳动的万卡集群训练中得到实际应用,累计节省了数百万GPU小时的训练算力。
注意到,此前,豆包团队推出了新一代稀疏架构UltraMem,使模型推理成本降低了83%。此次,他们又推出了COMET,进一步瞄准了模型训练成本的问题。
目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。
论文链接:https://arxiv.org/pdf/2502.19811
开源地址:https://github.com/bytedance/flux
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008602秒