Siri超级碗知识测试：AI守口如瓶，惊人准确率仅34%-科技快讯中文网

2025

01-24

Siri超级碗知识测试：AI守口如瓶，惊人准确率仅34%

苹果手机

jinting

围观1102次

0条评论

发布日期：2025年01月24日 20:29:39

Siri超级碗知识测试：AI守口如瓶，惊人准确率仅34%

Siri超级碗知识测试：AI惊人准确率揭秘

　　 1月24日消息，对苹果虚拟助手Siri（新版）进行的一项测试显示，其在解答有关超级碗历史的问题时表现欠佳。测试结果显示，在关于第58届超级碗冠军归属的提问中，新版Siri仅正确回答了20次，准确率为34%。

　　注意到，此次测试由OneFootTsunami的PaulKafasis设计并执行。他逐一询问了新版Siri从第一届到第六十届超级碗的冠军得主，并记录其回答。结果显示，新版Siri的表现不尽如人意，特别是在一些具体问题上出现了明显的错误。例如，新版Siri多次错误地将费城老鹰队说成获得了33次超级碗冠军，而事实上该队历史上只赢得了一次冠军。此外，新版Siri的回答中还夹杂着与问题无关的足球信息，甚至在某些情况下给出了错误的超级碗届数信息。这样的表现不禁让人怀疑新版Siri的数据更新情况以及处理特定领域知识的能力。尽管Siri作为智能助手在日常对话中可能已经相当熟练，但在处理特定历史事件或专业体育信息方面仍需进一步提升。此次测试的结果提醒我们，对于智能助手的依赖应该谨慎，特别是在需要精确信息的情况下。同时，这也表明开发者们在未来需要更加注重对这些系统进行针对性训练，以提高它们在特定领域的准确性。

　　尽管新版 Siri 确实给出了一些连续准确的答案，例如正确回答了第五至第七届超级碗的冠军，但其在第十七届至第三十二届超级碗的问题上连续 15 次回答错误，凸显了其知识库的局限性。而且，当被问及第十六届超级碗时，新版 Siri 甚至建议用户向 ChatGPT 寻求答案，而后者则提供了正确答案。这一对比进一步暴露了新版 Siri 与更先进的 AI 系统之间的差距。

　　测试在运行 iOS 18.2.1 并启用 Apple Intelligence 的设备上进行，同时在即将发布的 iOS 18.3 测试版和 macOS 14.7.2 中也发现了类似问题，表明这一问题在苹果多个平台上普遍存在。Kafasis 已将测试结果整理成 Excel 和 PDF 格式的表格，供公众查阅。

　　受Kafasis测试的启发，DaringFireball的John Gruber也对新版Siri进行了类似的体育问题测试，并将其与ChatGPT、Kagi、DuckDuckGo和Google的表现进行了对比。结果显示，其他AI系统都能准确回答问题，而新版Siri则多次出错。更糟糕的是，Gruber发现，旧版Siri（即未启用Apple Intelligence的版本）在无法回答问题时，会提供一组网页链接，其中第一个链接通常能够提供部分正确的答案。然而，新版Siri（启用Apple Intelligence并集成了ChatGPT功能后）的表现更差，不仅给出了错误的答案，而且每次尝试给出的答案都不同。

　　 Gruber 对此评论道：“新版 Siri 的回答不仅完全错误，而且看似合理，这是最糟糕的错误方式。更令人难以置信的是，Siri 在一个如此受欢迎的主题上表现得如此愚蠢。”他还指出，新版 Siri 连一半的超级碗问题都不能答对。

　　事实上，Siri的表现一直以来都受到诸多批评，Gruber对其“看似合理但实际上错误”的回答的指责，也揭示了当前AI聊天机器人在解答常识性问题时常见的“幻觉”现象——即它们会自信地给出错误或误导性的答案。

　　据悉，苹果公司正在研发一款采用先进大型语言模型（LLM）的升级版Siri，目标是提升其与ChatGPT等聊天机器人的竞争力。这款升级版Siri或将实现连续对话功能，并提供类似ChatGPT或Claude的实用建议和支持。据传，苹果可能会在2025年的全球开发者大会（WWDC）上首次展示这款LLM版Siri，不过实际上线时间可能会稍晚一些。这表明LLM版Siri有可能会作为iOS19的一部分进行推送，而iOS19预计将在2026年春季正式发布。

首页 > 苹果手机

2025

01-24