首页 > 科技资讯
2025
03-25

《ARC-AGI-2测试爆冷!人工智能惨败人类,得分令人惊掉下巴》

科技资讯
jinting
围观1314次
0条评论
发布日期:2025年03月25日 15:57:48

《ARC-AGI-2测试爆冷!人工智能惨败人类,得分令人惊掉下巴》

人工智能惨遭逆袭:ARC-AGI-2测试结果引发震撼热议

   3月25日消息,ArcPrize基金会是由著名人工智能研究员弗朗索瓦・肖莱(François Chollet)联合创立的一家非营利机构。近日,该基金会在其官方博客中宣布推出一项名为ARC-AGI-2的新测试,目的是评估当前顶尖人工智能模型的通用智能水平。这项测试的设计极为严格,据透露,目前绝大多数AI系统在面对这一挑战时都未能取得理想的成绩。 在我看来,ARC-AGI-2测试的推出无疑是对现有AI技术的一次重要检验。它不仅反映了研究者们对于提升AI能力的不懈追求,同时也揭示了当前AI领域存在的局限性。随着技术的进步,如何让机器更好地理解复杂情境并做出适应性决策,仍然是科研人员需要深入探讨的关键课题。这次测试或将为未来的研发方向提供宝贵的参考依据。

   根据ArcPrize排行榜的最新数据显示,以推理能力见长的AI模型,例如OpenAI的o1-pro以及DeepSeek的R1,在ARC-AGI-2测试中的表现并不理想,得分仅为1%到1.3%之间。令人意外的是,一些以生成能力和广泛知识库著称的非推理型AI模型,比如GPT-4.5、Claude3.7 Sonnet和Gemini2.0 Flash,其得分同样徘徊在1%上下,这表明这些模型在面对复杂逻辑推理任务时的表现与专注于推理的模型相比并没有显著优势。 从这一现象来看,我们可以看到当前人工智能技术在不同领域的发展存在一定的局限性。虽然许多顶尖AI系统在各自擅长的领域内表现出色,但在涉及深层次逻辑分析或抽象推理的任务上,它们的能力仍有待提升。这也提示我们,未来的AI研究需要更加注重平衡各种技能的发展,既要强化特定领域的专精,也要逐步扩展跨领域的综合能力,这样才能更好地应对未来更加复杂的挑战。同时,这也反映了评测标准的重要性,如何更准确地衡量AI系统的实际应用价值仍是一个值得深入探讨的问题。

   ARC-AGI测试是一系列类似谜题的挑战,要求AI从五颜六色的方块中找出视觉规律,并给出正确的“答案网格”。这类问题的设计目的是让AI面对前所未见的情况时仍能作出反应。为了设定一个人类基准水平,ArcPrize基金会组织了超过400人的团队参与ARC-AGI-2测试。结果显示,这个“团体”的平均正确率为60%,这一成绩显著超越了所有AI模型的表现。

   在X平台上,肖莱指出,ARC-AGI-2测试相较于ARC-AGI-1测试,能够更精准地反映AI模型的真实智能水平。ArcPrize基金会组织的测试致力于考察AI系统是否具备在训练数据范围外快速掌握新技能的能力。

   肖莱指出,与ARC-AGI-1有所不同,新版的ARC-AGI-2测试特别设计以避免AI模型单纯依靠“蛮力”——也就是海量的计算资源——去寻求解答。此前,这一问题被认为是ARC-AGI-1的一大短板。为了解决这个问题,ARC-AGI-2新增了一个重要指标:效率。同时,该系统还要求模型能够即时解析模式,而非仅仅依赖记忆功能。

   “智能不仅仅是解决问题或取得高分的能力,”Arc Prize 基金会联合创始人格雷格・卡姆拉德(Greg Kamradt)在其博客中写道,“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能?’,还包括‘以何种效率或代价?’”

   ARC-AGI-1 在大约五年内无人能敌,直到 2024 年 12 月,OpenAI 发布了其先进的推理模型 o3,该模型超越了所有其他 AI 模型,并在评估中达到了人类水平的表现。然而,正如当时所指出的,o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

   OpenAI的o3模型(低配版)是首个在ARC-AGI-1测试中取得显著突破的版本,其得分达到了75.7%。然而,在ARC-AGI-2测试中,即便投入价值200美元的计算资源,该模型的得分也仅为4%。

   ARC-AGI-2的发布恰逢科技领域中很多人呼吁开发新的、尚未被充分利用的基准来评估AI发展进程之际。Hugging Face的联合创始人托马斯·沃尔夫在近期接受TechCrunch采访时提到,AI行业目前缺少足够的测试手段来衡量通用人工智能的重要特性,比如创造力。

   与此同时,ArcPrize基金会日前公布了2025年的ArcPrize竞赛计划,号召开发者在ARC-AGI-2测试中实现85%的准确率目标,并且要求每项任务的执行成本控制在0.42美元以内(按当前汇率约合3元人民币)。

本文固定链接: https://www.news9999.cn/arts_content-84695.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 AirPods依旧霸榜,但增长遇冷:美国iPhone用户耳机偏好新趋势  2025-07-17 11:26:44 物理AI崛起:黄仁勋预言下一个科技浪潮  2025-07-17 11:21:27 苹果iPhone 17 Pro/Max将首配抗刮防眩光黑科技,量产难题已突破  2025-07-17 10:46:42 谷歌官宣8月20日重磅发布,Pixel 10系列或将引领智能手机新潮流  2025-07-17 10:46:11 OPPO K13 Turbo 首发水冷风扇黑科技,手机散热迎来新革命  2025-07-17 10:45:39 印航客机黑匣子惊现关键操作:机长关闭燃油开关引热议  2025-07-17 10:43:25 我国邮政寄递业务量首破千亿,同比增长16.9%创历史新高  2025-07-17 10:42:13 十年内,AI将读懂世界并动手做事?黄仁勋预言未来  2025-07-16 13:05:37 中国石化破局全球:AEH I航空液压油首获适航认证,中国跻身生产强国行列  2025-07-16 12:55:46 HTC VIVE 首款智能眼镜即将亮相,台北发布会引爆8月科技圈  2025-07-16 12:25:15 3D打印新革命!阿迪达斯Climacool Laced鞋款上市,160美元解锁未来穿搭  2025-07-16 12:12:31 「满级防水+风冷黑科技!OPPO K13 Turbo 颠覆性登场」  2025-07-16 12:11:49 2025英特尔技术之旅重磅来袭:9月底凤凰城引爆科技新风暴  2025-07-16 12:11:08 微软宣布Win10 LTSB 2015版本将于10月14日停更,用户需警惕!  2025-07-16 12:01:40 亚马逊推迟网页版 Alexa AI 上线,用户期待再延至七月末  2025-07-16 11:50:54 苹果 AI 框架 MLX 升级支持英伟达 CUDA,开发者成本有望大幅下降  2025-07-16 11:50:28 慧天 X5-14 IRH 颠覆登场:轻薄商务本的未来已来  2025-07-16 11:47:47 华为MatePad系列2025旗舰来袭:麒麟8/9芯片加持,平板性能全面升级  2025-07-16 11:45:58 字节跳动回应H20传闻:未提交采购申请,相关报道存误  2025-07-16 11:38:06 荣耀平板 GT2 Pro 霸气登场:骁龙 8 Gen3 + 10100mAh 大电池,今晚震撼亮相  2025-07-15 14:08:02 萝卜快跑上线武汉:88元畅享全天候无人驾驶出行  2025-07-15 13:22:00 上合数字经济论坛启幕,麒麟操作系统引领全球合作新范式  2025-07-15 13:19:01 微软Surface新品震撼上市:性能飙升50%,6888元起引爆科技圈  2025-07-15 12:39:01 字节跳动进军轻量MR领域:护目镜形态开启沉浸新体验  2025-07-15 12:35:27 黄仁勋:频繁用AI反促认知升级?真相揭秘  2025-07-15 12:12:38
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.008251秒