首页 > 科技资讯
2024
12-26

深度搜索全新力作!编程表现逆袭,超越Claude 3.5 Sonnet!

科技资讯
jinting
围观1815次
0条评论
发布日期:2024年12月26日 15:00:13

深度搜索全新力作!编程表现逆袭,超越Claude 3.5 Sonnet!

开启编程之旅,探索无限可能!

科技快讯中文网

   还没等到官宣,Deepseek-v3 竟意外曝光了?!

   据Reddit网友透露,v3版本现已在API和网页端上线,同时一些新的排行榜成绩也随之公布。

   在Aider多语言编程测试排行榜中,Deepseek-v3成功超越Claude3.5Sonnet,位列第二,紧随榜首的o1之后。

   (相比 Deepseek-v2.5,完成率从 17.8% 大幅上涨至 48.4%。)

   在LiveBench评测中,它目前是顶级的开源大型语言模型,并在非推理模型中排名次于gemini-exp-1206,位列第二。

   目前 Hugging Face 上已经有了 Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。

   综合网上多方爆料来看,Deepseek-v3 相比前代 v2、v2.5 有了极大提升 ——

   首先,Deepseek-v3 基本配置如下:

   采用 685B 参数的 MoE 架构;

   最近的一项研究提出了一种新的专家选择机制,该机制涉及一个包含256个专家的系统。在这个系统中,Sigmoid函数被用作一种路由方式,确保每次能够从前256位专家中选出前8位(Top-k=8)。这种方法旨在通过精确的算法筛选出最合适的专家,以提高决策的质量和效率。 这种基于Sigmoid函数的路由机制提供了一个有趣的角度来优化专家选择过程。它不仅简化了从大量候选人中挑选的过程,而且还能通过算法的精准度保证结果的公平性和客观性。不过,如何进一步验证这种方法在不同场景下的适用性和有效性,以及其可能带来的潜在偏差问题,仍然是值得深入探讨的话题。此外,对于这样一个涉及大量计算和数据处理的系统来说,其实际应用中的性能表现也是一个值得关注的问题。

   支持 64K 上下文,默认支持 4K,最长支持 8K 上下文;

   约 60 个 tokens / s;

   BTW,在 Aider 测评中击败 Claude 3.5 Sonnet 的还是 Instruct 版本(该版本目前未发布)。

   为了更全面地了解Deepseek-v3的改进情况,机器学习爱好者瓦哥·Srivastav深入研究了配置文件,并总结出v3与v2、v2.5的主要差异。

   与v2(于今年5月6日正式宣布开源)相比,经过AI整理成表格如下:

   可以看出,v3 几乎是 v2 的放大版,在每一项参数上均有较大提升。

   而且瓦哥重点指出了模型结构的三个关键变化:

   第一,在MOE(Mixture of Experts)结构中,v3版本采用sigmoid函数作为门控机制,取代了v2版本中的softmax函数。这一改动使得模型能够在更大规模的专家集合中进行选择,而不会像softmax那样倾向于将输入集中到少数几个专家上。我认为这一改进非常有意义,因为它能够显著提高模型的灵活性和效率,尤其是在处理复杂任务时。sigmoid函数的引入不仅扩大了模型的选择范围,还可能提升模型对于输入数据的响应能力,这对于需要高度自适应性的应用场景来说是一个重要的进步。

   第二,v3 引入了一个新的 Top-k 选择方法 noaux_tc,它不需要辅助损失。

   简单理解,MoE 模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择 Top-k 个最相关的专家来处理每个输入样本。

   新的方法能够无需借助辅助损失函数,在主要任务的损失函数指导下直接选取Top-k个专家,从而简化了训练流程并提升了训练效率。

   对了,为便于理解,瓦哥用 DeepSeek 逐步解释了这一方法。

   这是一项针对专家选择的群体基础算法,通过把专家们分配到若干小组内,并在每个小组中挑选出最优的k位专家。

   第三,在版本V3中引入了一个新的参数——e_score_correction_bias,这个参数旨在通过调整专家评分来优化专家的选择过程或提升模型训练的效果。这一改进无疑为那些依赖专家评分进行决策或训练模型的系统带来了更高的灵活性和准确性。通过精细调节e_score_correction_bias,系统能够更准确地捕捉到专家评分中的细微差别,从而使得最终的模型表现更为出色。这不仅提高了模型预测的精确度,也为用户提供了更加可靠的数据支持。总体而言,这种改进对于提升整体系统的性能具有重要意义,也表明了开发团队致力于持续改进产品以满足用户需求的决心。

   此外,v3与v2.5(本月10日宣布开源)的对比结果已经公布,后者主要增加了联网搜索功能,相比v2在各个方面都有显著提升。

   同样经 AI 整理成表格如下:

   具体而言,v3版本在配置上超过了v2.5,包括增加了更多的专家数量、扩大了中间层的规模,以及每个token对应的专家数量也有所提升。

   看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)

   关于v3的实际表现,另一位独立开发者SimonWillison(他是Web开发框架Django的创始人之一)也迅速进行了上手测试。

   比如先来个自报家门。

   我是 DeepSeek-V3,基于 OpenAI 的 GPT-4 架构……

   再考考图像生成能力,生成一张鹈鹕骑自行车的 SVG 图。

   最终图形 be like:

   对了,在另一网友的测试中,Deepseek-v3 也回答自己来自 OpenAI??

   该网友推测,最近观察到的一个现象是,在某些新闻报道中,出现了明显的由OpenAI模型生成的回答。这种情况可能源于训练过程中采用了该模型的输出作为参考。虽然技术的进步使得人工智能能够生成更加自然流畅的文本,但在新闻报道中过度依赖这些技术手段可能会导致信息的真实性和准确性受到质疑。媒体工作者应该更加谨慎地选择和验证信息来源,确保所发布的每一条内容都经过严格的核实,以维护新闻行业的公信力。

   尽管尚未正式宣布,Deepseek-v3已经在LiveBench上登顶最强开源大型语言模型(LLM)的宝座。不少网友认为,它在某些方面已经超越了只发布未来计划的OpenAI,这无疑引起了广泛的关注和讨论。 这种现象反映了开源社区在人工智能领域的活跃度与创新力。Deepseek-v3能够迅速获得认可,不仅证明了其技术实力,也展示了开源模式在推动科技进步方面的巨大潜力。然而,这也提醒我们关注开源项目可持续发展的问题,以及如何更好地平衡技术创新与商业利益之间的关系。

   抱抱脸:

   https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

   参考链接:

   [1]https://x.com/reach_vb/status/1871956999971414277

   [2]https://simonwillison.net/2024/Dec/25/deepseek-v3/

   [3]https://x.com/reach_vb/status/1872000205954089011

   [4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

   本文来自微信公众号:量子位(ID:QbitAI),作者:一水

本文固定链接: https://www.news9999.cn/arts_content-12111.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 360携手常州打造智能网联新高地 周鸿祎亲临见证签约并观战苏超  2025-08-17 21:17:57 17.5米巨龙穿江!济南黄岗路黄河隧道震撼贯通  2025-08-17 21:03:18 AG600批产第二架机首飞成功,国产大飞机再添新成员  2025-08-17 21:01:04 鸿蒙崛起!央视发声:自主系统才是破局关键  2025-08-17 20:44:44 Intel 10A工艺将启航:2028年迎战1nm极限  2025-08-17 20:39:09 赛场上机器人‘罢工’,程序员‘躺平’:赛后瞬间暴露科技人的疲惫日常  2025-08-17 20:21:51 宇树科技G1再破纪录!人形机器人100米障碍赛狂飙33.71秒夺金  2025-08-17 20:09:35 具身天工 Ultra 创百米新纪元,人形机器人首夺飞人桂冠  2025-08-17 20:06:35 人形未来,北京启航——第二届世界人形机器人运动会8月震撼登场  2025-08-17 20:06:07 高配手机成主流,京东818手机节补贴来袭!  2025-08-17 20:05:32 鸿蒙启航2025:青春力量点燃未来科技之光  2025-08-17 20:04:08 5G-A赋能苏超黄金时刻,开启观赛新体验  2025-08-17 19:58:41 央视曝光充电宝黑市回流;小鹏P7鹏翼门首现线下;沈海高速惊现禁用辅助驾驶警示牌  2025-08-17 19:58:39 腾讯:未雨绸缪,囤积充足GPU芯片应对潜在挑战  2025-08-17 19:48:42 F-15D战机滑行突发奇险,后座飞行员意外腾空弹射惊呆众人  2025-08-17 19:47:59 中国队力克德国,问鼎2025世界人形机器人足球巅峰之战  2025-08-17 19:46:44 天玑9400强势来袭,联发科2024年登顶中国高端芯片三成市场  2025-08-14 07:10:28 苹果 iPad 维修政策大变革:首推到店维修,收费透明化引关注  2025-08-14 06:51:20 全球首台相控阵CT亮相!成像清晰度媲美解剖,国产科技再破纪录  2025-08-14 06:51:18 腾讯视频VIP月费或涨至38元?官方回应来了  2025-08-11 20:58:16 苹果独占六成市场,高端手机战场再掀波澜  2025-08-11 20:18:42 美国禁令新变招:AI芯片出口附15%抽成条款  2025-08-11 20:16:17 英伟达H20利润15%将流入美国,中国或可反制要求对等回馈  2025-08-11 20:06:49 未来家庭新成员登场!镜识科技携三款智能机器狗震撼亮相2025世界机器人博览会  2025-08-11 20:04:13 AI裁员潮来袭!毕业生失业率飙升,这些岗位首当其冲  2025-08-11 19:57:56
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.008176秒