• 首页
  • 国产色情
  • 深夜激情网
  • 亚洲色图校园春色
  • 哥要
  • 性生活图片
  • 丁香五色月色情
  • 丁香五色月色情

    你的位置:悠悠色 > 丁香五色月色情 > indian sex5 阿里PC-Agent重构东说念主机交互,精确拆解跨应用领导,自动化办公更进一步

    indian sex5 阿里PC-Agent重构东说念主机交互,精确拆解跨应用领导,自动化办公更进一步

    发布日期:2025-07-05 23:50    点击次数:146

    indian sex5 阿里PC-Agent重构东说念主机交互,精确拆解跨应用领导,自动化办公更进一步

    面向复杂 PC 任务的多模态智能体框架 PC-Agentindian sex5,来自阿里通义实验室。

    从 Office 到浏览器,跨 APP 使命流皆不错交给 AI 来完成了。

    领导 1(翻译):在记事本应用法式中,掀开"文档"中的"备忘录"文献,检察上昼的第二项行动。在时钟应用法式中,在该行动启动前 1 小时成就闹钟。

    领导 2(翻译):在文献资源处治器中,掀开"文档"中的"旅行计较"文献,检察旅行计较的主视力。将旅行主视力添加到时钟应用法式的宇宙时钟列表中。在 Chrome 浏览器上搜索从北京到旅行主视力的航班工夫。

    领导 3(翻译):在 Chrome 浏览器均划分搜索英伟达(Nvidia)和苹果(Apple)确现时股价。在 Excel 中掀开" stock_prices "文献,将公司称号写入 A 列,相应的股价写入 B 列。

    领导 4(翻译):在 Outlook 中读取发给豪伊的主题为"旅行"的已读邮件,记载行程的启程地、主视力和启程日历。在 Chrome 浏览器上的 booking.com 网站搜索单程机票。

    领导 5(翻译):在文献资源处治器中掀开"文档"文献夹里的" test_doc1 "文献,在 Word 中将标题设为加粗,并将前两段的行距设为 1.5 倍。

    近期,基于多模态大模子(MLLM)构建 GUI 智能体以落幕智能建设上(如手机、PC)的任务自动化,受到了庸俗的见谅。

    如下图所示,与手机比拟,PC 场景的复杂性体当今两方面:

    一是 PC 的图形界面包含了更密集各种的可交互元素,以及不同布局的文本,给细粒度感知带来了挑战;二

    是 PC 常用于坐褥力场景,波及更多复杂的 App 内及跨 App 使命流,因此包含更复杂的任务序列。

    现存使命如 UFO、Agent-S 等,对文本的风雅感知和操作才略不及,况且忽视了子任务之间的复杂依赖,因此在复杂 PC 任务上存在局限性。

    针对这一问题,阿里通义实验室的测度东说念主员冷落面向复杂 PC 任务的多模态智能体框架 PC-Agent:

    (1)设想主动感知模块(APM)落幕对屏幕内容的风雅感知和操作;

    (2)冷落档次化多智能体劝诱结构,将复杂领导剖析为领导 - 子任务 - 手脚 3 个档次,并在相应档次成就 Manager、Progress、Decision 及 Reflection 智能体,落幕对复杂领导从上至下的难度剖析,以及从下到上的精确反应。

    为了更好地评估智能体在复杂 PC 任务上的阐扬,作家还构建了一个波及 8 个常用 PC 应用的复杂领导集,实验评估发现,所冷落的 PC-Agent 框架在复杂任务上的阐扬显贵越过已有轮换。

    主动感知模块 APM

    关于可交互元素,通过索求屏幕的 accessibility tree 来获得其位置及功能描述信息。关于文本信息,当有预备智能体触发 Select ( 方针文本 ) 手脚时,主动感知模块通过基于 MLLM 的意图交融模块索求方针文本的起止边界,然后诈欺 OCR 用具进行精慑服位及后续风雅操作。

    △主动感知模块默示图

    档次化多智能体劝诱

    PC-Agent 将复杂领导的履行剖析为 3 个档次:领导 - 子任务 - 手脚。

    (1)在领导档次,成就 Manager 智能体认真将复杂领导拆分为子任务,以及进行跨子任务通讯。如上图所示,复杂领导的子任务之间继续互相依赖,部分子任务需要前序子任务的履行罢休才能实例化为一个可落寞履行的子任务。成就 Manager 智能体,有助于处理子任务之间复杂的依赖相干,并灵验镌汰单一子任务的有预备难度。

    (2)在子任务档次,成就 Progress 智能体,认真追踪和总牢固任务的履行程度,从而落幕更精确的程度感知,并幸免冗长腌臜的操作历史搅扰有预备。

    (3)在手脚档次,成就 Decision 智能体和 Reflection 智能体。关于现时子任务的每个设施,Decision 智能体通过感知模块不雅察屏幕,并联结 Progress 智能体输出的程度信息和 Reflection 智能体输出的反念念信息,生成现时设施的操作有预备。Reflection 智能体则把柄每个设施操作前后屏幕的变化,判断该设施是否达到了预期的成果,并将可能出现的绝顶情况反应给 Progress 和 Decision 智能体。

    △PC-Agent 框架默示图

    PC-Eval 领导集

    由于现存基于真实 PC 环境的动态评测数据集(如 WindowsAgentArena)主要由相对基础的领导组成,为了更好地评估智能体在本色场景复杂领导的阐扬,作家冷落了一个新的评测领导集 PC-Eval,包含波及 8 个常用 PC 应用的 25 条复杂费户领导。

    每条领导由多少具有依赖相干的子任务组成,强调风雅化操作及长程有预备,并与试验场景使命流相对应。下表列举了部分领导的示例。

    实验罢休

    现存基于先进 MLLM(如 GPT-4o、Claude-3.5)的单智能体轮换,险些无法完成任何复杂领导,考证了 PC 复杂场景在感知、有预备方面极具挑战性。此外,对比分析现存的开源多智能体轮换 UFO 及 Agent-S 的测试罢休,不错发现:

    (1)现存轮换的风雅感知和操作才略较弱,举例 UFO 在 Excel 表格场景会将多个信息疏导填入统一单位格,而 UFO 和 Agent-S 均无法履行 Word 文档的剪辑操作。

    (2)现存轮换无法灵验处理子任务间复杂的依赖,举例关于"掀开文档 A,翻译其内容,新建文档 B,将文档 A 内容的翻译写在文档 B 中"这么的领导,Agent-S 会在新建的文档中写下" The translation of the content "这句话,而非本色的翻译内容。

    (3)比拟之下,主动感知模块使得 PC-Agent 具备风雅感知与操作才略,档次化多智能体劝诱也落幕了灵验的领导拆解、子任务间通讯、程度感知以及演叨反应,从而显贵普及了 PC-Agent 在复杂任务上的性能阐扬。

    样例展示

    搜索多项信息并剪辑 Excel 表格的操作序列

    Reflection 智能体发现无效操作并反应给 Decision 智能体

    Word 文档中的居中、添加下划线等剪辑操作

    偷拍在线

    论文连气儿:https://arxiv.org/pdf/2502.14282

    代码连气儿:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agentindian sex5