首页 > 科技资讯
2024
12-27

【智慧无界】GLM-PC 智能底座 CogAgent-9B 开源,AI 智能体窥探屏幕奥秘

科技资讯
jinting
围观1438次
0条评论
发布日期:2024年12月27日 08:23:25

【智慧无界】GLM-PC 智能底座 CogAgent-9B 开源,AI 智能体窥探屏幕奥秘

探索未知,智能底座揭秘!

科技快讯中文网

   12月27日消息,智谱技术团队公众号于昨日(12月26日)发布了一篇博文,宣布其基座模型CogAgent-9B-20241220已正式开源。该模型基于GLM-4V-9B进行训练,专门用于智能体(Agent)任务。

   注:该模型仅需以屏幕截图作为输入(无需HTML等文本描述),便能根据用户指定的任意任务,并结合历史操作,预测下一步的GUI操作。

   由于屏幕截图和图形用户界面操作的通用性,CogAgent能够广泛应用于各种基于GUI交互的设备中,例如个人计算机、智能手机以及车载系统等。

   相较于2023年12月开源的第一版CogAgent模型,新版CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均有显著改进,并支持中英文双语的屏幕截图和语言交互功能。

   CogAgent的输入仅包含三个部分:用户给出的自然语言指令、已执行的历史动作记录以及GUI截图,不需要任何以文本形式表示的布局信息或额外的标签(setofmarks)信息。

   其输出涵盖以下四个方面:

   思考过程(Status&Plan):CogAgent在处理GUI截图时会明确表达出对当前情况的理解,并据此制定下一步的操作计划,这部分内容可以通过调整参数来控制展示的具体细节。 CogAgent在解析GUI截图时,能够清晰地展现其对现状的把握,并据此规划接下来的步骤。这一过程包含了对其所处状态的评估(Status),以及基于这种评估而形成的行动计划(Plan)。这部分信息可以通过设置不同的参数来调整输出的形式,以满足不同应用场景的需求。通过这种方式,CogAgent不仅提升了系统的透明度,也增强了用户对其操作逻辑的理解。

   之前那段关于动作描述和历史操作记录的说明需要改为新闻内容,但提供的文本并不是新闻,因此我将尝试在保持主题大意的前提下进行改写,使其更像一则新闻报道: 【新闻更新】为提高操作流程的透明度与管理效率,最新系统更新引入了一项新功能:自然语言形式的动作描述将被系统自动记录至历史操作日志中。这一改进旨在帮助用户更好地追踪已完成的操作步骤,确保流程的可追溯性和准确性,从而提升整体的工作效能。

   CogAgent 采用类似函数调用的方式,结构化地定义下一步的操作及其参数,以便终端应用能够解析并执行模型的输出结果。该操作空间涵盖了两类动作:一类是 GUI 操作(基础动作),例如左键点击、文本输入等;另一类是拟人行为(高级动作),比如启动应用程序、调用语言模型等。

   在当前的信息时代,我们每天都会面临各种各样的操作选择,这些操作可以简单地划分为“一般操作”和“敏感操作”。所谓“敏感操作”,是指那些一旦执行,可能会导致难以挽回后果的操作。比如,在进行“发送邮件”任务时,点击“发送”按钮就属于此类操作。这样的设计初衷是为了提醒用户在执行这类操作时要格外小心,以免因一时疏忽而造成不可逆的影响。 在我看来,这种区分方式非常有意义,它不仅帮助用户更好地理解每一步操作背后可能带来的后果,同时也促使人们在面对重要决策时能够更加审慎。尤其在网络日益发达的今天,一次错误的点击可能意味着泄露重要信息或造成经济损失。因此,增强对敏感操作的认知与警惕,对于保护个人隐私和财产安全至关重要。此外,这也提醒了软件开发者,在设计产品时应该考虑到用户体验的安全性和便捷性之间的平衡,从而为用户提供更安全、更可靠的服务。

   CogAgent-9B-20241220在多个基准测试中表现出色,包括Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等数据集。在这次评估中,它不仅展现了强大的多模态理解能力,还与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等领先模型进行了对比。结果显示,尽管这些模型各有千秋,但CogAgent-9B-20241220在某些关键任务上的表现尤为突出,尤其是在处理复杂场景理解和生成高质量文本方面。这一成果预示着该技术在未来可能有更广泛的应用前景,特别是在需要高度智能化交互的领域。

   结果显示,CogAgent在多个数据集上取得了领先的结果,这进一步证实了它在GUIAgent领域的卓越性能。这项技术的进步不仅展示了人工智能在用户界面交互方面的巨大潜力,也为未来的软件开发提供了新的方向。随着技术的不断成熟,我们有理由期待CogAgent在未来能够解决更多复杂的问题,并在更广泛的场景中发挥作用。这一成果无疑为相关领域的研究者和开发者带来了新的希望与动力。

本文固定链接: https://www.news9999.cn/arts_content-12583.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 360携手常州打造智能网联新高地 周鸿祎亲临见证签约并观战苏超  2025-08-17 21:17:57 17.5米巨龙穿江!济南黄岗路黄河隧道震撼贯通  2025-08-17 21:03:18 AG600批产第二架机首飞成功,国产大飞机再添新成员  2025-08-17 21:01:04 鸿蒙崛起!央视发声:自主系统才是破局关键  2025-08-17 20:44:44 Intel 10A工艺将启航:2028年迎战1nm极限  2025-08-17 20:39:09 赛场上机器人‘罢工’,程序员‘躺平’:赛后瞬间暴露科技人的疲惫日常  2025-08-17 20:21:51 宇树科技G1再破纪录!人形机器人100米障碍赛狂飙33.71秒夺金  2025-08-17 20:09:35 具身天工 Ultra 创百米新纪元,人形机器人首夺飞人桂冠  2025-08-17 20:06:35 人形未来,北京启航——第二届世界人形机器人运动会8月震撼登场  2025-08-17 20:06:07 高配手机成主流,京东818手机节补贴来袭!  2025-08-17 20:05:32 鸿蒙启航2025:青春力量点燃未来科技之光  2025-08-17 20:04:08 5G-A赋能苏超黄金时刻,开启观赛新体验  2025-08-17 19:58:41 央视曝光充电宝黑市回流;小鹏P7鹏翼门首现线下;沈海高速惊现禁用辅助驾驶警示牌  2025-08-17 19:58:39 腾讯:未雨绸缪,囤积充足GPU芯片应对潜在挑战  2025-08-17 19:48:42 F-15D战机滑行突发奇险,后座飞行员意外腾空弹射惊呆众人  2025-08-17 19:47:59 中国队力克德国,问鼎2025世界人形机器人足球巅峰之战  2025-08-17 19:46:44 天玑9400强势来袭,联发科2024年登顶中国高端芯片三成市场  2025-08-14 07:10:28 苹果 iPad 维修政策大变革:首推到店维修,收费透明化引关注  2025-08-14 06:51:20 全球首台相控阵CT亮相!成像清晰度媲美解剖,国产科技再破纪录  2025-08-14 06:51:18 腾讯视频VIP月费或涨至38元?官方回应来了  2025-08-11 20:58:16 苹果独占六成市场,高端手机战场再掀波澜  2025-08-11 20:18:42 美国禁令新变招:AI芯片出口附15%抽成条款  2025-08-11 20:16:17 英伟达H20利润15%将流入美国,中国或可反制要求对等回馈  2025-08-11 20:06:49 未来家庭新成员登场!镜识科技携三款智能机器狗震撼亮相2025世界机器人博览会  2025-08-11 20:04:13 AI裁员潮来袭!毕业生失业率飙升,这些岗位首当其冲  2025-08-11 19:57:56
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.008746秒