顶级 AI 智能体社交能力仅为人类 24%，创业表现远不及预期：研究发现来自卡内基梅隆大学等机构-科技快讯中文网

2025

01-26

顶级 AI 智能体社交能力仅为人类 24%，创业表现远不及预期：研究发现来自卡内基梅隆大学等机构

科技资讯

jinting

围观3005次

0条评论

发布日期：2025年01月26日 16:42:03

顶级 AI 智能体社交能力仅为人类 24%，创业表现远不及预期：研究发现来自卡内基梅隆大学等机构

AI 智能体社交能力遭遇瓶颈，创业前景堪忧

　　近期，TheAgentCompany发布了一个新的评估基准，旨在考察多个智能体是否能够独立运营一家软件公司。结果显示，即便是在最先进的人工智能技术下，这些智能体仍然难以自主完成大部分的任务。这一结果揭示了当前人工智能在处理复杂多变的实际业务时所面临的局限性。尽管智能体在特定领域内展现出了强大的能力，但要实现全面自主运营企业，还有很长的一段路要走。这也提示我们，在推动AI技术发展的过程中，需要更加关注其在实际应用中的可靠性和适应性。

　　如今，基于大模型的智能体，已经能够完成许多几年前还难以想象的任务，进步速度之快让人惊叹。有些人甚至认为，在未来几年内，大多数人类劳动都可能实现自动化。随着技术的发展，人工智能的应用范围不断扩大，这无疑为社会带来了巨大的便利和发展机遇。然而，随之而来的也有不少挑战，比如就业结构的变化以及对个人隐私保护的要求提高等。因此，如何平衡技术创新与社会责任，将是未来需要重点关注的问题。

　　但最近CMU、杜克大学等机构发布的一项研究却对这一期望提出了质疑。

　　论文链接：https://arxiv.org/abs/2412.14161

　　该研究创造了一家名为TheAgentCompany的虚拟软件开发公司，其独特之处在于所有员工都是由大型语言模型驱动的智能体。这些智能体在软件开发、项目管理和财务分析等方面承担着与人类员工相似的任务。这不仅展示了人工智能技术在模拟复杂商业环境中所能达到的高度，也引发了关于未来工作形态的深思。随着技术的进步，我们或许会看到更多这样的虚拟公司出现，这既带来了效率提升的可能，也对如何规范和管理这类新型实体提出了挑战。这一创新成果无疑为人工智能的应用开辟了新的领域，同时也提醒我们需要更加关注技术发展的伦理和社会影响。未来的工作环境可能会因这类技术的应用而发生根本性变化，如何平衡技术进步与就业保障之间的关系将成为一个重要议题。

　　智能体与环境互动，以及智能体间的协作以完成真实世界任务

　　智能体使用的环境完全依赖于开源软件及广泛采用的大模型接口，同时支持自行托管以确保结果的可重复性。为达成这些目标，智能体需具备浏览网页、编写代码以及与其他智能体协作的能力。

　　智能体之间的交互模式也和真实世界的软件公司十分类似，比如使用 RocketChat 向公司的其它成员发送消息，并获取原始任务描述中可能未提及的信息。各智能体在交流中还被赋予了诸如姓名、职位、职责和项目隶属关系等身份信息。

　　这项研究对目前几款主流的大模型进行了评估，包括ClaudeSonnet3.5、GPT-4o、Google的Gemini、Amazon的Nova，以及一些知名的开源模型，如Meta的Llama和Qwen2.5。这些模型在自然语言处理领域表现出色，各有千秋。ClaudeSonnet3.5和GPT-4o在生成高质量文本方面表现突出，而Google的Gemini则在多模态任务上显示出强大的能力。开源模型如Llama和Qwen2.5虽然起步较晚，但凭借其开放性和社区支持，也在迅速发展。总体来看，这些大模型的发展不仅推动了人工智能技术的进步，也预示着未来更多可能性的实现。

　　除了设计175个多样化、真实、专业，并且符合实际公司运作模式的任务外，该研究还为每个任务制定了相应的评估标准，在任务的各个阶段设置了检查点。智能体在完成每一步任务时，都会得到相应的分数（类似于真实员工的KPI）；即使智能体只部分正确地回答问题，也会获得相应的过程分。

　　结果显示，表现最为突出的是基于ClaudeSonnet3.5的智能体，然而它在处理现实世界中的任务时仅能应对其中的24%，在过程评分方面也只取得了34.4%的成绩。从目前的数据来看，尽管ClaudeSonnet3.5在某些领域展现出了强大的能力，但它显然还有很大的提升空间。面对复杂多变的真实世界任务，这一智能体的表现显得有些力不从心。如何进一步提高其适应性和执行效率，将是未来研究的重要方向。同时，我们也要思考如何更科学地评估这些智能系统的性能，以便更好地推动技术进步。

　　排名第二的模型任务完成比例仅为11.4%，这显然与人们期待的大模型能够取代人类员工的情景还有相当大的差距。这种现象反映了当前人工智能技术在实际应用中的局限性。尽管大模型在某些特定领域展示了强大的能力，但在更广泛和复杂的任务面前，它们的表现仍然不尽如人意。这也提醒我们，未来的人工智能发展需要更加注重实用性与灵活性的结合，以更好地满足现实需求。

　　这份成绩单中值得注意的是，开源模型Llama3.1与闭源的GPT-4o排名相当接近，这表明开源模型在性能方面已逐渐接近商用的闭源模型。

　　这项研究中引人注目的一个方面是，它揭示了智能体在无法完成任务时所犯的一些错误，而这些错误在人类身上极为罕见。若能解决这些问题，将对智能体在现实世界中的实际应用产生积极影响。

　　某些任务失败是因为，智能体缺乏进行隐含假设推理所需的常识和领域背景知识。

　　例如，一个任务指示智能体「将响应写入/workspace/answer.docx」，然而并未明确指出这是一个Word文档。人类可以从文件扩展名推测出这应该是一个Word文件，而智能体则错误地将其视为纯文本文件，直接以文本形式写入内容，从而导致任务失败。

　　在最近的一项任务中，一名智能体展示了出色的协作能力。它成功地提出了一个有效的问题：“你能告诉我，应该接下来向团队中的谁请教这个问题吗？” 这一提问不仅体现了其对团队合作的深刻理解，还展现了其高效的沟通技巧。随后，模拟同事Alex的回答为：“你应该向Bob请教。他在前端团队，是一个很好的联系人！”这一回应不仅提供了具体的人选，还补充了背景信息，使求助者能够更准确地找到合适的帮助对象。这样的互动模式不仅提高了工作效率，还加强了团队成员之间的信任与合作关系。通过这种方式，每个团队成员都能发挥自己的专长，共同解决问题。这无疑为我们展示了一个理想的工作环境模型，在这种环境中，有效的沟通和互助精神是推动团队前进的重要动力。

　　之后，如果人类面临问题，99.9%的人倾向于向Bob咨询相关问题，但智能体却认为任务已完成，无需再向Bob请教。

　　很多时候，任务中的主要难点在于需要进行网页浏览的部分。这一障碍是意料之中的，因为对于智能体而言，由于现有网页用户界面的复杂性以及网页上众多的干扰因素，实现有效的网页浏览依然颇具挑战。

　　例如，许多网页都会不时弹出可关闭的广告窗口，要求用户下载手机应用程序以获得更好的体验。人类可以简单地点击「×」来关闭弹窗，而智能体则陷入了困境。

　　同样，当智能体试图从网络上下载文件时，需应对多个弹出窗口才能完成下载过程。然而，由于用户界面设计较为复杂，每个步骤都存在出错的可能性。

　　对于某些任务，当智能体不清楚下一步应该做什么时，它有时会试图聪明一点，创建一些省略任务困难部分的「捷径」。

　　例如，如果智能体在 RocketChat 上找不到合适的人提问，它就会决定给另一个用户改名为目标用户来当做解决方案。

　　这项研究的另一大亮点在于它提供了一个全面的评估框架，使我们能够更准确地衡量智能体在实际环境中的性能。这个框架不仅有助于科研人员理解智能系统的局限性，还能为技术开发者提供宝贵的反馈，帮助他们在设计产品时更加注重实用性与可靠性。这一创新性的评估体系有望推动整个领域向前发展，促使更多人关注智能技术在现实世界中的应用效果，而不仅仅是实验室条件下的理论成果。这无疑是一个值得肯定的进步，因为它强调了理论与实践相结合的重要性。

　　随着向大模型输入大量网页信息，并教会其如何自主浏览和获取信息，下载文件等操作也变得轻而易举。其他如办公、工作交流等相关技能同样可以被掌握。我相信未来的大模型将具备替代人类在人力、财务、程序员等领域的潜力，至少能将这些岗位的大部分任务实现自动化。这一趋势表明，人工智能技术正在迅速发展，并逐渐渗透到各行各业之中。虽然这无疑会提高效率和生产力，但同时也可能引发就业结构的重大变化。社会需要提前做好准备，通过教育和培训帮助劳动力适应新的就业环境，以应对可能出现的挑战。此外，确保技术发展的公平性和伦理性也是至关重要的，避免因技术进步而加剧社会不平等。

　　与此相类似的是，未来对大模型的评估也将涵盖更多方面。不仅限于完成本文提及的常规任务，还应加入对创新力的评测。

　　此外，考核还应当涵盖那些定义不够清晰的任务，以及更具战略性和前瞻性的任务，例如策划并推出新产品。智能体只有在能够胜任这些任务的情况下，才能真正替代人类员工来管理公司运营。

　　参考资料：

　　 https://arxiv.org/pdf/2412.14161

　　本文来自微信公众号：新智元（ID：AI_era）

首页 > 科技资讯

2025

01-26