💭 VeriGUI: Verifiable Long-Chain GUI Dataset

Published in Arxiv, 2025

关键词

长链复杂性 (Long-Chain Complexity)
子任务可验证性 (Subtask-Level Verifiability)
图形用户界面代理 (GUI Agents)
多模态大语言模型 (Multimodal Large Language Models, MLLMs)
部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP)
任务分解 (Task Decomposition)
深度研究代理 (Deep Research Agents)
浏览器交互代理 (Browser-Use Agents)
动作效率 (Action Efficiency)
成功率与完成率 (Success Rate & Completion Rate)

Arxiv地址：https://arxiv.org/abs/2508.04026

背景

近年来，自主GUI代理成为人机交互的重要研究方向。借助多模态大语言模型，研究者希望构建能够处理复杂计算机任务的智能体。然而，现有数据集主要存在两大挑战：

任务短期化：大多数基准仅涉及少量操作步骤（通常不足10步），缺乏对长程规划与复杂推理的考察。
验证粗粒度：多数采用结果级验证，仅检验最终页面或输出，无法定位中间环节错误，从而限制了代理的改进空间。

因此，如何获得覆盖真实交互场景、支持长链任务分解与细粒度验证的数据集，成为推动GUI代理发展的核心难题。

方法

任务建模框架

论文将 GUI 任务形式化为部分可观测马尔可夫决策过程 (POMDP)，由以下要素组成：

状态空间 (S)：表示底层系统的完整配置。
观测空间 (O)：包括网页截图、HTML DOM 树，或桌面GUI截图，模拟代理在部分可观测环境下的输入。
动作空间 (A)：统一为通用的 GUI 操作（如点击、输入、滚动、拖拽、键盘操作等）。
状态转移函数 (P)：描述 GUI 环境对操作的响应。
奖励函数 (R)：基于子任务级可验证目标，为每个子任务提供二值监督信号。

通过该建模，VeriGUI 不仅支持完整任务的评估，还支持子任务级别的独立验证。

任务指令构建流程

任务指令的生成采用 “大模型生成 + 人类审查” 的多阶段流程：

种子任务选取
- 在每个主题领域（如科学、金融、社会、科技、艺术等）人工挑选一批种子任务，作为任务库的初始输入。
任务扩展与生成
- 通过大模型（LLMs）扩展种子任务，生成大量候选任务。
- 人工对候选任务进行筛选，保留语义清晰、可执行的任务。
子任务分解
- 使用 LLM 进一步将完整任务自动分解为多个子任务（通常为 4–8个）。
- 每个子任务对应一个独立的目标函数 G(k)，确保可验证性。
质量检测与多重审查
- 自动化过滤：检查格式、逻辑一致性。
- 人工多轮审核：确保指令的事实正确性、合理性与可执行性。
- 最终仅保留通过所有审查的任务，进入正式任务池。

人工示范收集

在任务指令准备好后，由人工标注员执行任务，并记录完整的操作轨迹：

任务执行与轨迹记录

人工在真实环境中操作（网页或桌面软件）。
使用屏幕录制和日志工具收集：
- 操作日志 (Action Logs)：记录点击、输入、拖动等动作。
- 观测日志 (Observation Logs)：记录任务过程中可见的界面截图或DOM树。
- 子任务目标 (Goals)：定义每个子任务的成功条件。

人工优化与修正

在执行过程中，人工会根据可行性微调子任务顺序，保证操作的连贯性与可行性。

验证与质控

自动验证：检查操作序列的逻辑一致性。
人工复核：确保子任务结果正确、操作轨迹完整。
只有通过自动与人工双重验证的示范数据才被保留。

这样，VeriGUI 不仅包含了长链的任务分解，还保证了子任务的可验证性，避免了传统数据集“只看最终结果”的缺陷.

数据统计特征

基于当前已完成的 130个网页任务：

平均每个任务含 4.5个子任务、214步操作。
总计包含 27,873个步骤、587个子任务。
行为分布涵盖点击、滚动、输入、键盘操作等常见GUI行为，其中滚动 (31.3%) 和点击 (25.8%) 最为常见。
任务主题分布均衡，覆盖科研、金融、社会、艺术与科技。

实验

实验部分主要集中在 130个网页任务上，未来将扩展至桌面环境。

任务建模：基于 POMDP 框架，定义状态、观测、动作空间与奖励函数。
数据源：网页任务涵盖科研、金融、科技、艺术、社会等五大领域；桌面任务涉及办公软件、系统工具与专业软件。
动作空间：统一为常见GUI操作（点击、拖动、输入、滚动、按键等）。

评价指标：

成功率 (SR)：是否完成整体任务目标。
完成率 (CR)：输出正确元素占比。
动作效率 (AE)：完成任务所需操作步数（仅对成功任务定义）。

此外，实验还引入了 SR@k 指标，用于分析在前k个子任务被正确执行的前提下，代理的整体完成情况。

实验在多类代理与基础模型上进行：

深度研究代理（如 OpenAI Deep Research、Gemini Deep Research）
搜索引擎型代理（结合大模型与开源搜索工具）
浏览器交互型代理（直接操作网页元素）
多智能体系统（如 Camel OWL 与 OpenAI-o3）

结果

总体表现

在 VeriGUI 上评测的所有主流大模型与GUI代理（包括 OpenAI-o3、Gemini-2.5-Pro、GPT-4o、Deep Research Agents、Camel OWL 等）整体表现都不理想：

成功率 (SR)：整体平均低于 10%。
完成率 (CR)：整体平均低于 30%。
动作效率 (AE)：成功任务中，平均操作步数普遍远高于人类示范。

说明现有 GUI 代理在长链复杂任务中的表现远未达到可用水准，特别是在跨子任务的长期规划和错误恢复方面存在明显不足

不同代理范式的对比

论文比较了三类典型的 GUI 代理：

深度研究代理 (Deep Research Agents)

代表：OpenAI Deep Research、Gemini Deep Research。
优势：在需要多轮搜索与文档综合的任务中表现最好。
局限：面对需要精确 GUI 操作的任务（如复杂表格、金融计算）时容易失败。

浏览器交互代理 (Browser-Use Agents)
- 优势：能直接操作网页 DOM，适合需要多步精确交互的任务。
- 局限：缺乏对任务全局规划的能力，容易卡死或遗漏步骤。
多智能体系统 (Multi-Agent Systems)
- 代表：Camel OWL、OpenAI-o3。
- 优势：在任务分解和子任务并行方面更有优势。
- 局限：不同子代理之间的协调仍然存在瓶颈，容易出现信息丢失和冗余操作。

实验结果显示：深度研究代理在信息检索类任务中表现最好，而浏览器交互代理在处理 GUI 操作时更具优势；多智能体系统在复杂任务中有潜力但稳定性不足。

跨领域表现差异

VeriGUI 的任务覆盖五大主题领域（科研、金融、科技、社会、艺术娱乐），结果显示出明显差异：

艺术与娱乐 (Art & Entertainment)：任务相对简单，代理平均完成率最高。
科学与科技 (Science & Technology)：中等难度，完成率有一定波动。
社会政策 (Society & Policy) 与金融 (Finance)：表现最差，原因在于：需要跨多步骤的精确推理（如计算、信息整合）；任务目标往往存在歧义，需要外部知识支持。

说明领域知识与任务复杂性对代理性能有强烈影响，尤其是金融与政策类任务对模型推理与稳健性要求更高。

子任务可验证性与 SR@k 结果

论文引入了 SR@k 指标（即在前k个子任务正确执行的前提下的成功率），结果表明：

当前几个子任务完成时，整体任务成功率显著提升。
说明代理主要在中后段任务执行中失败，暴露出在长程规划与状态跟踪上的不足。
子任务验证机制可以帮助定位错误发生的位置，有助于未来改进。

错误类型与失败原因分析

实验还对代理的失败原因进行了分类：

任务理解错误：无法正确解析指令，导致一开始就走错方向。
子任务边界错误：跨子任务时无法正确衔接，导致逻辑断裂。
GUI交互错误：点击错误元素、滚动错位、输入错误等。
状态遗忘：在长链任务中丢失关键信息，导致后续操作错误。
效率低下：执行大量冗余操作，超出合理步数范围后失败。

这些结果表明，未来的研究需要在任务分解、长期记忆、错误恢复机制上进一步优化

总结

VeriGUI 的提出在以下方面具有重要意义：

突破短期任务限制：引入长链、多子任务结构，更贴近真实应用需求。
强化可验证性：通过子任务级验证，能够明确定位失败环节，指导模型优化。
揭示现有局限：实验表明，当前GUI代理在长程推理、错误恢复与多步骤决策方面仍存在显著不足。
研究价值：VeriGUI 不仅是一个数据集，更是推动通用型交互智能体研究的重要基准，为未来发展更健壮的规划与决策能力提供了测试平台。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Junjie Wang (王军杰)

背景

方法