首页 > 科技资讯
2025
04-06

中科大华为联合发布首个可部署的生成式推荐大模型,并开放背后认知技术

科技资讯
jinting
围观3893次
0条评论
发布日期:2025年04月06日 22:52:17

中科大华为联合发布首个可部署的生成式推荐大模型,并开放背后认知技术

引领AI推荐新潮流:中科大华为联手打造革命性生成式推荐大模型问世

   生成式大模型成功在国产昇腾NPU上完成部署!

   在信息爆炸的时代背景下,推荐系统已经成为我们日常生活中密不可分的一部分。Meta公司率先提出了生成式推荐的新范式HSTU,通过将推荐参数扩展到万亿级别,取得了令人瞩目的成果。

   近期,中科大携手华为共同打造了推荐大模型的部署方案,该方案能够服务于多种应用场景。在研究与实践的过程中,有哪些心得体会和新发现?最新的分享内容现已发布。

   报告亮点包括:

   梳理推荐范式的发展历程可以发现,融入扩展定律的生成式推荐范式正成为未来发展的主流方向。

   复现并研究不同架构的生成式推荐模型及其扩展定律;通过消融实验和参数分析,解析 HSTU 的扩展定律来源,并赋予 SASRec 以可扩展性;

   验证 HSTU 在复杂场景和排序任务中的表现及扩展性;

   团队展望并总结未来研究方向。

   如图1所示,推荐系统的演进方向正朝着降低对人工设计特征和简单模型结构依赖的趋势发展。在深度学习技术普及之前,由于计算能力的限制,人们更多地依靠手工打造的特征以及较为基础的模型架构(如图1A所示)。这一阶段的技术路径虽然有效,但其局限性也显而易见,尤其是在面对复杂场景时,往往难以满足更高精度的需求。 随着深度学习的崛起,尤其是大数据与高性能计算设备的结合,推荐系统开始转向端到端的学习模式。这种方式能够自动挖掘数据中的潜在规律,极大地提升了系统的智能化水平。我认为,这种转变不仅是技术进步的结果,更是市场需求驱动下的必然选择。未来,我们或许会看到更加个性化、实时性强且具有高度适应性的推荐服务出现。同时,这也提醒我们在享受技术创新带来的便利之余,还需关注隐私保护和技术伦理等问题,确保科技向善。

   随着深度学习的不断进步,研究者致力于设计更为复杂的模型,以更精准地捕捉用户偏好,并进一步提高对GPU并行计算资源的使用效率(图1B)。

   然而,随着深度学习技术逐渐触及发展瓶颈,人们开始重新审视特征工程的重要性(图1C)。这一趋势表明,尽管深度学习在过去几年中取得了显著成就,但它并非解决所有问题的万能钥匙。在追求更高效、更精准的人工智能解决方案时,我们或许需要更加注重数据的质量与特征的选择,而非一味地依赖模型的复杂度。 在我看来,这种回归基础的做法是一种理性且必要的调整。一方面,它提醒我们在技术发展的过程中要避免盲目追逐热点,而应脚踏实地地打好基础;另一方面,这也为那些擅长传统机器学习方法的研究者提供了更多机会,让他们能够在这个领域继续发光发热。总之,无论是深度学习还是特征工程,它们都是推动人工智能进步的重要工具,关键在于如何根据实际需求合理运用。

   如今,大语言模型扩展定律的成功启发了推荐领域的研究者。扩展定律描述了模型性能与关键指标(如参数规模、数据集规模和训练资源)之间的幂律关系。通过增加模型深度和宽度,并结合大量数据,可以提升推荐效果(图 1D),这种方法被称为推荐大模型。

   近期,HSTU等生成式推荐框架在该领域取得了一系列重要成果,证实了推荐系统发展的扩展规律,推动了生成式推荐大模型研究的兴起。研究团队指出,生成式推荐大模型有望成为革新现有推荐系统的全新范式。

   在此背景下,研究哪些模型具有真正的可扩展性,剖析其成功背后的应用扩展规律,并探讨如何借助这些规律优化推荐效果,已经成为推荐系统领域备受关注的研究方向。

   为探究生成式推荐大模型在多种架构中的扩展能力,研究团队对HSTU、Llama、GPT以及SASRec这四种采用Transformer结构的模型进行了对比分析。

   在三个公开数据集上的实验结果表明,在模型参数规模较小的情况下,不同架构的性能表现相差无几。值得注意的是,最优的架构类型会因数据集的不同而有所变化。这一发现提醒我们,在设计深度学习模型时,选择合适的架构需要结合具体任务和数据特性,而非一味追求复杂的结构。这不仅有助于提升模型效率,还能更好地适应多样化的应用场景。从我的角度来看,这种对细节的关注正是推动人工智能技术进步的重要因素之一。

   然而,随着参数扩展,HSTU 和 Llama 的性能显著提升,而 GPT 和 SASRec 的扩展性不足。尽管 GPT 在其他领域表现良好,但在推荐任务上未达预期。团队认为,这是因为 GPT 和 SASRec 的架构缺乏专为推荐任务设计的关键组件,无法有效利用扩展定律。

   为了探究 HSTU 等生成式推荐模型的可扩展性来源,团队进行了消融实验,分别去除了 HSTU 中的关键组件:相对注意力偏移(RAB)、SiLU 激活函数,以及特征交叉机制。

   实验结果(见表 2)显示,单一模块的缺失并未显著影响模型的扩展性,但 RAB 的移除导致性能明显下降,表明其关键作用。

   在研究模型扩展定律的过程中,团队深入对比了SASRec与两个具有出色扩展性的模型——HSTU和Llama。通过细致的分析,他们发现两者之间的关键差异体现在RAB(相对自注意力块)以及注意力模块内部的残差连接设计上。这一发现为理解不同模型架构如何实现高效扩展提供了重要线索。 我认为,这种对模型内部机制的深入探讨非常有意义。它不仅帮助我们更好地理解现有技术的优势所在,还可能启发未来的研究方向。例如,在设计新的机器学习框架时,是否可以借鉴这些成功的残差连接策略?此外,这也提醒我们在评估模型性能时,不仅要关注最终的结果,更要重视其背后的技术细节。毕竟,正是这些细微之处决定了一个模型能否真正适应复杂多变的实际应用场景。

   为验证这些差异是否为扩展性的关键,团队为 SASRec 引入了 HSTU 的 RAB,并调整其注意力模块的实现方式。

   实验结果显示,仅通过单独加入RAB或者调整残差连接,并未显著提升SASRec在扩展性方面的表现。但当这两个部分同时被优化时,SASRec却表现出色,展现了优秀的扩展能力。这一发现表明,残差连接模式与RAB的协同作用能够有效增强传统推荐模型的扩展性,为后续推荐系统的研究提供了宝贵的思路和方向。我认为,这项研究强调了多维度优化的重要性。单一改进可能无法带来突破性的进展,而多种策略的综合运用则可能激发出意想不到的效果。这也提醒我们,在面对复杂的技术挑战时,需要从多个角度进行思考和尝试,才能找到最优解。此外,这种结合方式不仅提升了模型性能,还展示了不同技术元素之间潜在的合作可能性,这对于推动整个领域的发展具有重要意义。

   HSTU在多领域、多行为以及包含辅助信息的复杂场景下展现出了卓越的能力。特别是在多领域方面,HSTU在AMZ-MD的四个领域内 consistently 超过了基准模型SASRec和C2DSR(参见表4)。

   与仅在单一领域进行独立训练的HSTU-single相比,采用多域联合训练的HSTU展现出更优异的表现,充分体现了多域联合建模的有效性。从表5的数据可以看出,HSTU在多个领域的行为数据上具备较强的扩展能力,尤其是在数据规模相对较小的场景下,例如DigitalMusic和VideoGames。这一结果表明,HSTU在应对冷启动问题方面具有很大的应用潜力。

   生成式推荐模型在排序任务中的表现令人瞩目,团队的研究表明这类大模型在性能上确实超越了传统的推荐算法,例如DIN。虽然在较小规模的情况下,Llama展现出了比HSTU更优异的成绩,但在扩展性方面,HSTU显然更具潜力,而Llama则显得稍显局限。 这种技术上的差异为不同应用场景提供了更多选择。对于需要快速部署且希望长期稳定发展的项目来说,HSTU可能是一个更为稳妥的选择,因为它能够更好地适应规模的变化。而对于那些追求即时效果并且已经具备良好基础架构支持的场景,Llama依然可以提供强大的助力。总的来说,生成式推荐模型正在改变我们对推荐系统的认知,并推动其向更加智能和高效的方向发展。未来,随着技术的进步,如何平衡模型性能与扩展性将成为研究的一个重要方向。

   团队深入研究了负采样率与评分网络架构对排序任务的作用,并进行了系统性的分析。同时,他们还探索了减少嵌入向量维度对整体表现的影响。实验结果显示,降低嵌入维度在较小的数据集如ML-1M和AMZ-Books上能带来性能提升,但在较大的ML-20M数据集上却出现了性能下滑的情况。这一发现揭示了一个重要的趋势:对于推荐系统的优化而言,模型的扩展并非仅仅依赖于垂直方向上的注意力模块数量增加,同时也受到水平方向上嵌入维度大小的影响。这提示我们,在构建更大规模的推荐系统时,需要综合考虑多方面的因素,而不仅仅局限于单一维度的调整。从我的角度来看,这种研究结果非常有价值,它为我们理解如何有效设计大规模机器学习模型提供了新的视角。尤其是在当前信息爆炸的时代,如何让算法更高效地处理海量数据成为了一个关键课题,这项研究无疑为解决这一问题指明了一条可行的道路。

   近年来,技术团队在探索大模型的发展路径时,聚焦于数据工程优化、Tokenizer改进以及提升训练与推理效率等方面,这些方向被视为未来研究的重要潜力领域。通过深化这些领域的研究,不仅能够有效应对现有技术瓶颈,还可能进一步拓展大模型的应用场景。 在我看来,数据工程的优化是推动大模型持续进步的关键环节之一。高质量的数据不仅能提高模型的学习效果,还能增强其泛化能力,这对于满足多样化应用场景的需求至关重要。同时,Tokenizer作为连接文本与算法的桥梁,其性能直接影响到模型的理解能力和表达精度。因此,不断迭代Tokenizer技术,使之更加高效且精准,将是实现更智能交互体验的基础。 此外,训练和推理效率的提升也是不容忽视的方向。随着应用场景日益复杂,如何在保证效果的前提下缩短训练周期、降低运行成本,已成为衡量一个模型是否具备实际应用价值的重要指标。我相信,在科研人员的努力下,这些问题都将逐步得到解决,从而让大模型真正成为服务于社会各个层面的强大工具。

   论文链接:https://arxiv.org/abs/2412.00714

   主页链接:https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models

   近日,一篇来自微信公众号“量子位”(ID:QbitAI)的文章引起了广泛关注。文章提到,由中科大与华为联合发布的生成式推荐大模型已正式亮相,并且该模型能够在昇腾NPU上实现高效部署。这一成果不仅展示了我国在人工智能领域的技术实力,也为未来更多应用场景提供了可能性。 从文章内容来看,这项研究无疑是一次重要的突破。它结合了认知智能全国重点实验室与华为诺亚方舟实验室的优势资源,通过深度学习等先进技术,在生成式推荐系统方面取得了显著进展。这不仅意味着用户能够享受到更加个性化、智能化的服务体验,同时也为相关行业带来了新的发展机遇。 在我看来,随着大数据时代的到来,如何有效利用海量信息成为了一个亟待解决的问题。而此次发布的生成式推荐大模型正是针对这一挑战交出的一份满意答卷。它不仅提高了信息匹配效率,还进一步推动了人机交互方式的革新。可以预见,在不久的将来,类似的创新成果将会越来越多地应用于教育、医疗、金融等多个领域,从而更好地服务于社会大众。 总之,这项工作既是对过去努力的肯定,也是对未来探索的激励。希望科研人员能够继续保持初心,不断突破自我,为构建更加美好的数字世界贡献智慧与力量。同时,也希望社会各界能给予更多关注和支持,共同促进我国人工智能产业健康快速发展。

本文固定链接: https://www.news9999.cn/arts_content-94799.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 小米昆仑N3伪装车首曝,或将于2025年底震撼登场  2025-07-21 15:56:21 华硕战杀24震撼登场:949元解锁23.8英寸240Hz超感视觉新体验  2025-07-21 15:45:14 三成车主拒付车联网费用,智能汽车烧钱路在何方?  2025-07-21 15:43:30 因系统故障,阿拉斯加航空突发全面停飞  2025-07-21 15:38:35 诺基亚回归!HMD 102 4G 搭载 DeepSeek AI 助手,仅售 169 元引爆市场  2025-07-21 15:26:52 三月狂降458元!iReader Ocean 4 长续航版跌破千元大关  2025-07-21 15:26:17 Debian 13Trixie8月9日重磅登场,RISC-V支持开启新篇章  2025-07-21 15:15:58 华为MatePad Pro 12.2英寸重磅登场:双层OLED屏+M-Pencil Pro,鸿蒙AI引领生产力新革命  2025-07-21 15:15:23 「事件」栏目上线!9.05版本重磅升级,科技动态秒同步日历提醒  2025-07-21 15:11:41 华为 MatePad Pro 12.2 英寸 2025 重磅登场:标准与柔光双色可选,顶配配置震撼发布  2025-07-21 15:06:14 微软退出流媒体战场: 电影和电视商店正式关闭  2025-07-21 15:05:24 科技昨夜今晨改写为:**《科技早班车:新车限售、高铁饮食风波与万能遥控器暗藏玄机》**  2025-07-21 14:56:06 余承东震撼官宣:华为Pura 80标准版7月23日即将开售  2025-07-21 14:30:45 EAST望远镜新动向:高原光学观测迈入新时代  2025-07-21 14:18:53 iPhone 17 色彩风暴来袭!雅鲁藏布江水电工程启动,玄戒 O2 5G 进展引关注  2025-07-20 08:13:12 华为智能基站革新:动态波形技术引领效率革命  2025-07-19 11:09:45 AI界新王者登场:OpenAI o3-alpha震撼发布,碾压Sonnet与Grok4  2025-07-19 09:54:00 仅一家厂商定档9月底发布第二代骁龙8至尊版旗舰,10月战火将燃  2025-07-19 09:50:45 挑战谷歌?Perplexity拟在手机预装AI浏览器破局  2025-07-19 09:47:04 纳米刺客出击:中科院首创肿瘤细胞自毁新策略  2025-07-18 14:25:51 极端高温引爆住院潮,2100年或现510万热伤人群  2025-07-18 14:21:10 1599元起!WIKO Hi畅享80 Pro震撼上市:6100mAh超长续航+鸿蒙生态加持  2025-07-18 13:46:14 荣耀 X70 首发价1399元起,七大旗舰黑科技全面下放  2025-07-18 13:45:31 三星首款三折叠旗舰搭载骁龙8至尊版,One UI 8曝光新机配置  2025-07-18 13:44:54 像素蛋糕发布方糖大模型:让灵感瞬间转化为生产力  2025-07-18 13:32:42
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.007527秒