首页 > 科技资讯
2025
03-07

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

科技资讯
jinting
围观1374次
0条评论
发布日期:2025年03月07日 12:14:44

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

数学算力争霸:讯飞星火 X1 升级版 VS DeepSeek

   3月3日,科大讯飞对星火深度推理模型X1进行了全面升级,并首次推出了基于星火X1的星火医疗大模型X1。该模型在疾病诊断和健康建议等医学任务上表现卓越。

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   作为国内首个且目前唯一一个完全使用国产算力进行训练的深度推理大模型,星火X1在参数量较小的情况下,其数学能力可与DeepSeekR1和OpenAIo1相媲美;讯飞星火X1的更新迭代,展示了基于国产算力训练的全栈自主可控大模型具有强大的实力和创新潜能。

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   测试数据来源:中文测试集取自2023/2024年度各阶段考试真题、模拟题及竞赛题,英文测试集则源自AIME2024/2025和MATH500竞赛题。

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   我们在星火X1升级后的第一时间,将其数学能力和DeepSeek做了简单对比,用的5道测试题含金量颇高,全部来自《2024年全国统一高考数学试卷(新高考Ⅰ)》,两大模型答卷情况如下:

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   小提示:由于高考试题难度较大,大模型提供的解题过程通常较长,使用截图方式难以一次性截取完整内容,可能需要分两次截取。因此,下面提供了同一问题的两部分解答截图。

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   题目1:

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后轮次中不能使用).则四轮比赛后,甲的总得分不小于2的概率是多少?

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   星火X1解答如下:

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   DeepSeek R1解答如下:

深度对决:讯飞星火 X1 升级版 VS DeepSeek,数学领域的巅峰之战

   星火XI开门红,先胜一局,给出了正确答案,且解题过程相当清楚。DeepSeek大意失荆州,给出了错误答案。

   题目2:

   星火X1解答如下:

   DeepSeek R1解答如下:

   这局表现整体不错,两款大模型都给出的正确答案,看来DeepSeek终于睡醒了,老虎要发威了。

   题目3:

   星火X1解答如下:

   DeepSeek解答如下:

   两大模型再接再厉,并驾齐驱,再度拿下一城。

   题目4:

   星火X1解答如下:

   DeepSeek R1解答如下:

   这是一道典型的等差数列问题,两大模型都得出了正确的解答,值得称赞!

   题目5:

   星火X1解答如下:

   DeepSeek解答如下:

   星火X1解答正确,DeepSeek刚展现出来的猛劲似乎又过了,在一道看起来并不很难的题上栽了跟头,错失一城。

   小结:

   至此,笔者兴致勃勃举办的这场友谊赛暂告结束,从整场赛事的表现来看,两款大模型在解答问题前,都会进行类人思考,并将思考过程完整呈现出来,其中包括题意分析,解题过程中要用到的知识点及详细的推理逻辑等,并会在发现问题时及时反思、纠错,应该说这一功能相当有用。因为它会让用户在得到答案的同时,知其然,更知其所以然,从而举一反三,弄懂一大类题的解法。

   除此之外,该系统还支持图像识别解题,其识别准确率非常高。不论是手机拍摄的纸质试卷或作业,还是网络截图,都能轻松识别并解答。这一特性解决了使用键盘输入数学公式和图形时遇到的难题,为用户带来了极大的便利。

   只是在解题正确率方面,两大模型表现出一定差异,相比之下,星火X1的正确率要更高一些,5题全对,成为本次“摸底考试”的“尖子生”,DeepSeek则失误了两题,以一道题20分,满分100来算,此次比赛刚好及格。

   讯飞星火深度推理大模型X1升级版之所以展现出色的表现,可能与其新增的两项创新技术密切相关。这两项新技术不仅增强了模型的推理能力,还显著提升了其在处理复杂任务时的准确性与效率。这些改进无疑为人工智能领域带来了新的突破,也预示着未来该模型在实际应用中的广阔前景。随着技术的不断进步,我们有理由期待这类高级模型将在更多场景中发挥重要作用,推动科技更好地服务于社会。

   这一先进技术通过自动化的高效领域数据挖掘和多种数据合成算法,创建了庞大的数学领域预训练数据库,从而大幅增强了基础模型在数学专业方面的实力。

   二是通过运用评语模型与强化学习算法,成功激活了大模型的长思维链。此外,评语模型还能促使大模型在推理过程中进行自我反思和验证,从而进一步提高了模型在推理阶段的准确性。

    

本文固定链接: https://www.news9999.cn/arts_content-64755.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 荣耀平板 GT2 Pro 霸气登场:骁龙 8 Gen3 + 10100mAh 大电池,今晚震撼亮相  2025-07-15 14:08:02 萝卜快跑上线武汉:88元畅享全天候无人驾驶出行  2025-07-15 13:22:00 上合数字经济论坛启幕,麒麟操作系统引领全球合作新范式  2025-07-15 13:19:01 微软Surface新品震撼上市:性能飙升50%,6888元起引爆科技圈  2025-07-15 12:39:01 字节跳动进军轻量MR领域:护目镜形态开启沉浸新体验  2025-07-15 12:35:27 黄仁勋:频繁用AI反促认知升级?真相揭秘  2025-07-15 12:12:38 苹果推送iOS 18.6开发者预览版Beta 3:国行AI功能仍遥不可及  2025-07-15 12:01:46 三星苹果全面同步!Galaxy S26+被砍,超薄Edge强势登场  2025-07-15 12:00:40 荣耀X70震撼登场:8300mAh超大电池引领续航新革命  2025-07-15 11:58:32 iOS 18.6 开发者预览版 Beta 3 震撼发布,全新功能抢先看!  2025-07-15 11:58:24 华为8.8英寸智享平板将携蜂窝网络重磅来袭  2025-07-15 11:52:28 全球首例直触液冷AI基地落成:8192块AMD MI325X打造2048TB超能算力  2025-07-15 11:50:17 富士康启动印度iPhone 17零部件出口,新机试产即将来袭  2025-07-14 14:54:36 波音787惊现致命隐患?美联邦航空管理局回应引擎燃油切断疑云  2025-07-14 14:20:43 Ubuntu 25.10 引入 RISC-V 新基线,多款硬件或将无缘升级  2025-07-14 12:11:46 国产突破!我国首套40兆帕高压离心式压缩机10月正式启用  2025-07-14 11:41:28 小米16首曝骁龙8 Elite 2:9月旗舰来袭,性能新标杆!  2025-07-14 11:38:11 TSMC Arizona 升级布局:2028 年启建尖端封装基地,SoIC 与 CoPoS 技术引领未来智造  2025-07-14 11:32:40 诺基亚携AI智能按键机回归,深度集成DeepSeek技术引爆市场  2025-07-13 15:52:03 GB24R1震撼登场:23.8英寸2K 150Hz超频显示器仅售599元  2025-07-13 13:42:54 S73M震撼登场:27英寸2K 255Hz超频Mini LED显示器仅1399元  2025-07-13 13:23:37 租出新体验:第三方平台推MacBook按月租用计划,两年一换最新款  2025-07-13 13:21:58 国铀一号首桶铀出炉,我国天然铀生产迈入新纪元  2025-07-12 11:58:34 TIOBE 2025 年 7 月榜单出炉:编程语言老将再掀激烈对决  2025-07-12 11:23:44 全球首创!十项脑科学突破一次性震撼发布  2025-07-12 11:21:53
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.008922秒