探索未知,智能底座揭秘!
科技快讯中文网
12月27日消息,智谱技术团队公众号于昨日(12月26日)发布了一篇博文,宣布其基座模型CogAgent-9B-20241220已正式开源。该模型基于GLM-4V-9B进行训练,专门用于智能体(Agent)任务。
注:该模型仅需以屏幕截图作为输入(无需HTML等文本描述),便能根据用户指定的任意任务,并结合历史操作,预测下一步的GUI操作。
由于屏幕截图和图形用户界面操作的通用性,CogAgent能够广泛应用于各种基于GUI交互的设备中,例如个人计算机、智能手机以及车载系统等。
相较于2023年12月开源的第一版CogAgent模型,新版CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均有显著改进,并支持中英文双语的屏幕截图和语言交互功能。
CogAgent的输入仅包含三个部分:用户给出的自然语言指令、已执行的历史动作记录以及GUI截图,不需要任何以文本形式表示的布局信息或额外的标签(setofmarks)信息。
其输出涵盖以下四个方面:
思考过程(Status&Plan):CogAgent在处理GUI截图时会明确表达出对当前情况的理解,并据此制定下一步的操作计划,这部分内容可以通过调整参数来控制展示的具体细节。 CogAgent在解析GUI截图时,能够清晰地展现其对现状的把握,并据此规划接下来的步骤。这一过程包含了对其所处状态的评估(Status),以及基于这种评估而形成的行动计划(Plan)。这部分信息可以通过设置不同的参数来调整输出的形式,以满足不同应用场景的需求。通过这种方式,CogAgent不仅提升了系统的透明度,也增强了用户对其操作逻辑的理解。
之前那段关于动作描述和历史操作记录的说明需要改为新闻内容,但提供的文本并不是新闻,因此我将尝试在保持主题大意的前提下进行改写,使其更像一则新闻报道: 【新闻更新】为提高操作流程的透明度与管理效率,最新系统更新引入了一项新功能:自然语言形式的动作描述将被系统自动记录至历史操作日志中。这一改进旨在帮助用户更好地追踪已完成的操作步骤,确保流程的可追溯性和准确性,从而提升整体的工作效能。
CogAgent 采用类似函数调用的方式,结构化地定义下一步的操作及其参数,以便终端应用能够解析并执行模型的输出结果。该操作空间涵盖了两类动作:一类是 GUI 操作(基础动作),例如左键点击、文本输入等;另一类是拟人行为(高级动作),比如启动应用程序、调用语言模型等。
在当前的信息时代,我们每天都会面临各种各样的操作选择,这些操作可以简单地划分为“一般操作”和“敏感操作”。所谓“敏感操作”,是指那些一旦执行,可能会导致难以挽回后果的操作。比如,在进行“发送邮件”任务时,点击“发送”按钮就属于此类操作。这样的设计初衷是为了提醒用户在执行这类操作时要格外小心,以免因一时疏忽而造成不可逆的影响。 在我看来,这种区分方式非常有意义,它不仅帮助用户更好地理解每一步操作背后可能带来的后果,同时也促使人们在面对重要决策时能够更加审慎。尤其在网络日益发达的今天,一次错误的点击可能意味着泄露重要信息或造成经济损失。因此,增强对敏感操作的认知与警惕,对于保护个人隐私和财产安全至关重要。此外,这也提醒了软件开发者,在设计产品时应该考虑到用户体验的安全性和便捷性之间的平衡,从而为用户提供更安全、更可靠的服务。
CogAgent-9B-20241220在多个基准测试中表现出色,包括Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等数据集。在这次评估中,它不仅展现了强大的多模态理解能力,还与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等领先模型进行了对比。结果显示,尽管这些模型各有千秋,但CogAgent-9B-20241220在某些关键任务上的表现尤为突出,尤其是在处理复杂场景理解和生成高质量文本方面。这一成果预示着该技术在未来可能有更广泛的应用前景,特别是在需要高度智能化交互的领域。
结果显示,CogAgent在多个数据集上取得了领先的结果,这进一步证实了它在GUIAgent领域的卓越性能。这项技术的进步不仅展示了人工智能在用户界面交互方面的巨大潜力,也为未来的软件开发提供了新的方向。随着技术的不断成熟,我们有理由期待CogAgent在未来能够解决更多复杂的问题,并在更广泛的场景中发挥作用。这一成果无疑为相关领域的研究者和开发者带来了新的希望与动力。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008746秒