在移动世界通信大会 MWC 2025 上,我们看到荣耀和订餐订位产品 OpenTable 做的一次演示:用户用语音命令手机 AI 助理找家西班牙餐馆订个位,接着就看到手机屏幕被「接管」,一通自己操作。
今天可以点外卖,将来它还能够帮你挂机放置类游戏,给指定好友的朋友圈点赞,甚至自动把刚拍下的一张照片修改一下发到社交网络。只要是用户能做的,基于 GUI 的 AI agent 一样能做。门槛低,上限高,适应性强,用起来更顺手,可能是这一类 AI Agent 的主要特色。
1. 背景介绍近年来,大语言模型(LLM) 的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力,已经在 对话生成、代码编写、知识问答 等任务中展现出了卓越的表现。如今,LLM ...
通过构建专门的图标描述数据集,研究人员发现该模型在常见应用图标的描述上更加可靠;在UI截图的视觉提示基础上,加入局部边界框的语义信息(以文本提示的形式)能够显著提升GPT-4o的理解效果。
为了解决这个问题,现在,西湖大学 AGI 实验室张驰团队推出了 AppAgentX —— 一款具备自我进化能力的 GUI 代理。它能够在不断执行任务的过程中学习并优化自身的行为模式,实现更加高效的操作。 任务执行更快,减少重复计算 :传统的 LLM 代理每次执行任务都需要重新思考操作流程,而 AppAgentX 能够记住并复用执行策略,从而避免重复推理,使得任务执行更加流畅高效。
【西湖大学张驰团队推出具备自我进化能力的 GUI 代理 AppAgentX】 日前,西湖大学 AGI 实验室张驰团队推出了 AppAgentX。 它能在执行任务中学习并优化自身行为模式,在多个 GUI 交互任务上实现“降本增效”,从单步执行效率到总体 ...
AI技术的快速发展正在重塑我们的生活方式和工作模式。AppAgentX的推出,不仅展示了AI在效率提升上的巨大潜力,也引发了对AI替代人类工作的担忧。许多人担心,随着AI技术的不断进步,传统岗位可能会逐渐被取代。然而,AI并非洪水猛兽,而是人类智慧的 ...
然而,通过技术规格的分析,还不足以全面评估Magic7Pro的市场表现。这款手机的一个显著特点是其独特的AI交互设计,启用了基于GUI的个人AI智能体AIAgentYOYO,能够通过自然语言和视觉识别来执行用户的命令。与传统的API接口不同,GUY技术使得AI可以直接在用户面前操作,从而提供了一种全新的交互体验。这意味着,只需简单的指令,如“点一杯冰美式”,AIAgent便可自动识别当前屏幕状态, ...
【西湖大学发布新智能体 ...
然而,这些传统方法大多采用“逐步GUI智能体”方式,频繁查询GUI状态,依赖云端模型进行决策,这不仅带来了隐私和安全问题,还增加了用户端 ...
【3 月 10 日,西湖大学 AGI 实验室张驰团队推出具备自我进化能力的 GUI 代理 AppAgentX 】它能在执行任务中学习并优化自身行为模式,实现更高效操作。从实验结果看,AppAgentX 在多个 GUI 交互任务上,从单步执行效率到总体 ...