深度搜索全新力作！编程表现逆袭，超越Claude 3.5 Sonnet！-科技快讯中文网

2024

12-26

深度搜索全新力作！编程表现逆袭，超越Claude 3.5 Sonnet！

科技资讯

jinting

围观1815次

0条评论

发布日期：2024年12月26日 15:00:13

深度搜索全新力作！编程表现逆袭，超越Claude 3.5 Sonnet！

开启编程之旅，探索无限可能！

科技快讯中文网

　　还没等到官宣，Deepseek-v3 竟意外曝光了？！

　　据Reddit网友透露，v3版本现已在API和网页端上线，同时一些新的排行榜成绩也随之公布。

　　在Aider多语言编程测试排行榜中，Deepseek-v3成功超越Claude3.5Sonnet，位列第二，紧随榜首的o1之后。

　　（相比 Deepseek-v2.5，完成率从 17.8% 大幅上涨至 48.4%。）

　　在LiveBench评测中，它目前是顶级的开源大型语言模型，并在非推理模型中排名次于gemini-exp-1206，位列第二。

　　目前 Hugging Face 上已经有了 Deepseek-v3（Base）的开源权重，只不过还没上传模型介绍卡片。

　　综合网上多方爆料来看，Deepseek-v3 相比前代 v2、v2.5 有了极大提升 ——

　　首先，Deepseek-v3 基本配置如下：

　　采用 685B 参数的 MoE 架构；

　　最近的一项研究提出了一种新的专家选择机制，该机制涉及一个包含256个专家的系统。在这个系统中，Sigmoid函数被用作一种路由方式，确保每次能够从前256位专家中选出前8位（Top-k=8）。这种方法旨在通过精确的算法筛选出最合适的专家，以提高决策的质量和效率。这种基于Sigmoid函数的路由机制提供了一个有趣的角度来优化专家选择过程。它不仅简化了从大量候选人中挑选的过程，而且还能通过算法的精准度保证结果的公平性和客观性。不过，如何进一步验证这种方法在不同场景下的适用性和有效性，以及其可能带来的潜在偏差问题，仍然是值得深入探讨的话题。此外，对于这样一个涉及大量计算和数据处理的系统来说，其实际应用中的性能表现也是一个值得关注的问题。

　　支持 64K 上下文，默认支持 4K，最长支持 8K 上下文；

　　约 60 个 tokens / s；

　　 BTW，在 Aider 测评中击败 Claude 3.5 Sonnet 的还是 Instruct 版本（该版本目前未发布）。

　　为了更全面地了解Deepseek-v3的改进情况，机器学习爱好者瓦哥·Srivastav深入研究了配置文件，并总结出v3与v2、v2.5的主要差异。

　　与v2（于今年5月6日正式宣布开源）相比，经过AI整理成表格如下：

　　可以看出，v3 几乎是 v2 的放大版，在每一项参数上均有较大提升。

　　而且瓦哥重点指出了模型结构的三个关键变化：

　　第一，在MOE（Mixture of Experts）结构中，v3版本采用sigmoid函数作为门控机制，取代了v2版本中的softmax函数。这一改动使得模型能够在更大规模的专家集合中进行选择，而不会像softmax那样倾向于将输入集中到少数几个专家上。我认为这一改进非常有意义，因为它能够显著提高模型的灵活性和效率，尤其是在处理复杂任务时。sigmoid函数的引入不仅扩大了模型的选择范围，还可能提升模型对于输入数据的响应能力，这对于需要高度自适应性的应用场景来说是一个重要的进步。

　　第二，v3 引入了一个新的 Top-k 选择方法 noaux_tc，它不需要辅助损失。

　　简单理解，MoE 模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择 Top-k 个最相关的专家来处理每个输入样本。

　　新的方法能够无需借助辅助损失函数，在主要任务的损失函数指导下直接选取Top-k个专家，从而简化了训练流程并提升了训练效率。

　　对了，为便于理解，瓦哥用 DeepSeek 逐步解释了这一方法。

　　这是一项针对专家选择的群体基础算法，通过把专家们分配到若干小组内，并在每个小组中挑选出最优的k位专家。

　　第三，在版本V3中引入了一个新的参数——e_score_correction_bias，这个参数旨在通过调整专家评分来优化专家的选择过程或提升模型训练的效果。这一改进无疑为那些依赖专家评分进行决策或训练模型的系统带来了更高的灵活性和准确性。通过精细调节e_score_correction_bias，系统能够更准确地捕捉到专家评分中的细微差别，从而使得最终的模型表现更为出色。这不仅提高了模型预测的精确度，也为用户提供了更加可靠的数据支持。总体而言，这种改进对于提升整体系统的性能具有重要意义，也表明了开发团队致力于持续改进产品以满足用户需求的决心。

　　此外，v3与v2.5（本月10日宣布开源）的对比结果已经公布，后者主要增加了联网搜索功能，相比v2在各个方面都有显著提升。

　　同样经 AI 整理成表格如下：

　　具体而言，v3版本在配置上超过了v2.5，包括增加了更多的专家数量、扩大了中间层的规模，以及每个token对应的专家数量也有所提升。

　　看完上述结果，瓦哥连连表示，明年有机会一定要见见中国的开源团队。(doge）

　　关于v3的实际表现，另一位独立开发者SimonWillison（他是Web开发框架Django的创始人之一）也迅速进行了上手测试。

　　比如先来个自报家门。

　　我是 DeepSeek-V3，基于 OpenAI 的 GPT-4 架构……

　　再考考图像生成能力，生成一张鹈鹕骑自行车的 SVG 图。

　　最终图形 be like:

　　对了，在另一网友的测试中，Deepseek-v3 也回答自己来自 OpenAI？？

　　该网友推测，最近观察到的一个现象是，在某些新闻报道中，出现了明显的由OpenAI模型生成的回答。这种情况可能源于训练过程中采用了该模型的输出作为参考。虽然技术的进步使得人工智能能够生成更加自然流畅的文本，但在新闻报道中过度依赖这些技术手段可能会导致信息的真实性和准确性受到质疑。媒体工作者应该更加谨慎地选择和验证信息来源，确保所发布的每一条内容都经过严格的核实，以维护新闻行业的公信力。

　　尽管尚未正式宣布，Deepseek-v3已经在LiveBench上登顶最强开源大型语言模型（LLM）的宝座。不少网友认为，它在某些方面已经超越了只发布未来计划的OpenAI，这无疑引起了广泛的关注和讨论。这种现象反映了开源社区在人工智能领域的活跃度与创新力。Deepseek-v3能够迅速获得认可，不仅证明了其技术实力，也展示了开源模式在推动科技进步方面的巨大潜力。然而，这也提醒我们关注开源项目可持续发展的问题，以及如何更好地平衡技术创新与商业利益之间的关系。

　　抱抱脸：

　　 https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

　　参考链接：

　　 [1]https://x.com/reach_vb/status/1871956999971414277

　　 [2]https://simonwillison.net/2024/Dec/25/deepseek-v3/

　　 [3]https://x.com/reach_vb/status/1872000205954089011

　　 [4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

　　本文来自微信公众号：量子位（ID：QbitAI），作者：一水

首页 > 科技资讯

2024

12-26