💭⭐ WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts

Published in Arxiv, 2026

Arxiv地址：https://arxiv.org/abs/2606.03220

Project Page: https://iigroup.github.io/WebRISE

1. 关键词 (Keywords)

Web Artifact Generation / 网页产物生成
Requirement-Induced State Evaluation / 需求诱导状态评测
Interaction Contract Graph (ICG) / 交互契约图
Requirement Coverage / 需求覆盖率
Transition Validity / 状态转移有效性
DOM/Visual Dual Oracle / DOM-视觉双通道判定
Explicit vs. Implicit Requirements / 显式与隐式需求
Contract-Guided Agent Execution / 契约引导的浏览器执行

2. 背景与动机 (Background & Motivation)

问题定义

论文关注 MLLM 生成网页产物时的一个核心评测问题：一个网页看起来像，不代表它真的能用。现实中的网页交互不是单个按钮是否存在，也不是某张截图是否美观，而是用户执行一系列操作后，页面状态是否按需求正确更新。

例如：

筛选器点击后，列表是否真的被过滤？
删除购物车商品后，总价、数量、结算按钮是否同步变化？
搜索为空时，页面是否给出正确空状态反馈？
翻页、排序、过滤组合后，状态是否保持一致？

已有 web/UI 生成评测通常依赖静态视觉相似度、固定脚本、局部 checkpoint、探索式 agent 或单次动作结果。这些协议能让“交互”变得可观察，但难以完整枚举和归因需求诱导的状态空间。

研究动机

论文提出：交互式网页评测应该从“局部证据”升级为“需求契约一致性”。也就是说，评测对象不应只是某次点击是否有响应，而应是：

需求应该诱导哪些稳定 UI 状态？
用户意图应该触发哪些状态转移？
每个转移后的 DOM、视觉结果和跨组件状态是否满足要求？
每个失败能否回溯到显式功能需求或隐式产品约束？

因此，WebRISE 把 MLLM 生成网页的评测形式化为：requirement-induced observable state-transition conformance。

3. 核心方法 (Core Methodology)

整体架构：Requirement → ICG → Browser Execution → Diagnostics

WebRISE 将任务需求编译成可执行交互契约，并在浏览器中验证生成网页是否满足该契约。整体流程包括：

输入多模态任务说明；
抽取显式需求与隐式需求；
构建 Interaction Contract Graph (ICG)；
用契约引导 agent 执行状态转移；
通过 DOM/visual oracle 验证转移；
聚合为状态、转移、需求和视觉层面的诊断指标。

Interaction Contract Graph (ICG)

对每个任务 τ，WebRISE 构建一个交互契约图：

[ G_\tau = (S_\tau, T_\tau, \Phi_\tau, M_\tau) ]

其中：

Sτ：稳定且可重放的 UI 状态，而不是完整 DOM 快照；
Tτ：由用户意图驱动的状态转移；
Φτ：可观察的 DOM/视觉断言；
Mτ：需求、测试项、转移和断言之间的映射。

这种设计的关键是：状态不是任意页面快照，而是与需求相关的可观察配置；转移不是固定 selector 脚本，而是用户意图层面的行为；断言同时覆盖过程证据和最终可见结果。

显式需求与隐式需求

WebRISE 特别区分两类需求：

显式需求 (Explicit Requirements)：用户直接说明的功能，例如搜索、筛选、排序、拖拽、导航。
隐式需求 (Implicit Requirements)：产品级状态一致性约束，例如分页重置、加载反馈、边界提示、删除后的计数同步、隐藏状态清理。

这一区分很重要，因为很多网页“表面可交互”，但失败在隐式约束上。例如按钮能点、列表也变化，但总数、空状态、结算按钮、分页状态没有同步更新。

契约构建流水线

WebRISE 的任务构建包含四步：

Expert-informed task collection：由行业实践者提供真实场景、用户需求、交互目标和数据假设。
Requirement normalization：将原始材料标准化为显式/隐式需求集合。
Test Data Contract & test items：定义评测所需的最小功能准备条件与语义测试项，不绑定布局、DOM 层级或具体 selector。
ICG compilation：将稳定状态、用户触发行为、DOM/视觉 postcondition 编译成 ICG，并建立需求覆盖映射。

Contract-Guided Evaluation

评测时，ICG 决定“要验证什么”，而 contract-guided browser agent 决定“如何在当前生成页面上执行”。与固定脚本不同，agent 会读取当前页面的 indexed DOM observation，并根据页面状态动态选择操作。

每个 transition 被表示为：

[ t_j = (s_j^{\mathrm{from}}, s_j^{\mathrm{to}}, g_j, P_j, A_j^{\mathrm{dom}}, A_j^{\mathrm{vis}}) ]

其中 g_j 是自然语言 agent goal，P_j 是前置条件，A_j^{dom} 和 A_j^{vis} 分别是 DOM 与视觉断言。只有当 source state 可达、agent 完成目标、DOM/visual 检查全部通过时，该 transition 才记为 PASS。

DOM/Visual 双通道判定

WebRISE 对每个 transition 记录：

agent trace；
DOM event log；
pre/post screenshot；
DOM assertion verdict；
visual postcondition verdict；
transition outcome。

DOM 断言负责过程级或结构级证据，例如 [CHANGE] 检查执行中的 transient behavior，[AFTER] 检查最终稳定 DOM 状态。视觉断言负责用户可见结果，例如列表更新、排序变化、卡片移动、面板展开、空状态显示等。

4. 数据与实验设计 (Dataset & Experimental Design)

Benchmark 规模

WebRISE 包含：

442 个任务；
5 种输入模态：Text、Markdown、Sketch、Image、Video；
5,271 条需求；
5,081 个状态；
5,495 个状态转移；
12,441 条 DOM/visual 断言。

任务覆盖 8 个领域、35 个场景，例如 Productivity Tools、Social Interaction、E-commerce、Food Delivery、AI Chat Platform、Knowledge Base 等。

与已有 benchmark 的区别

相较 WebCoderBench、VibeCodeBench、Interaction2Code、FrontendBench、WebGen-Bench、IWR-Bench 等评测，WebRISE 的核心差异是：

同时支持 interaction、vision、safety；
同时建模显式需求与隐式需求；
支持五种输入模态；
判定机制不是静态指标、固定脚本或局部 checkpoint，而是 DOM/VLM assertion 下的需求诱导状态转移一致性。

评测模型

论文评测 14 个代表性模型：

开源/开放权重：Qwen3.5-27B、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen3.6-27B、Qwen3.6-35B-A3B、Kimi-K2.5、Kimi-K2.6；
闭源/专有模型：GPT-5.4、GPT-5.5、Claude Opus 4.6、Claude Opus 4.7、Gemini 3 Flash、Gemini 3.1 Pro、Qwen3.6-Plus。

指标体系

WebRISE 报告一组从同一 ICG 投影出的诊断指标：

S% (State Reachability)：可达状态比例；
T% (Transition Validity)：PASS 的状态转移比例；
Re% (Explicit Requirement Coverage)：显式需求覆盖率；
Ri% (Implicit Requirement Coverage)：隐式需求覆盖率；
R% (Overall Requirement Coverage)：总体需求覆盖率；
V% (Visual Quality)：辅助视觉质量分；
Overall：跨模态的 T、R、V 紧凑平均。

这些指标的重点不是给一个单一分数，而是把失败定位到状态可达性、转移正确性、显式功能、隐式约束或视觉质量。

5. 实验结果与分析 (Results & Analysis)

主要结果：交互式网页生成远未解决

主结果显示，即使最强模型 GPT-5.5 的 best modality 也只达到：

T = 65.6% transition validity；
R = 66.3% requirement coverage；
Overall = 69.1。

这意味着仍有约三分之一的需求转移或需求检查无法满足。

模型层面的 Overall 排名中：

GPT-5.5：69.1；
GPT-5.4：66.8；
Kimi-K2.6：63.3，是开放权重模型中最高；
Qwen3.6-27B：62.5；
Qwen3.6-Plus：62.5。

论文的一个重要结论是：闭源模型整体领先，但模型开放性不是唯一决定因素；模态处理能力和状态交互推理同样显著影响排名。

视觉质量不是行为正确性的代理

WebRISE 明确展示了视觉分数与交互正确性之间的断裂。例如：

Qwen3.6-35B-A3B 在 Markdown 输入下视觉质量 V = 80.8；
但 transition validity 只有 T = 15.5；
requirement coverage 只有 R = 19.2。

这说明“页面看起来好”不能说明“页面能正确工作”。因此，Web artifact 评测必须进入状态转移与需求覆盖层面。

输入模态影响：Video 最能帮助交互行为恢复

论文在所有模型和任务上统计模态平均表现：

Text：T = 46.0，R = 48.9，Ri = 43.0；
Markdown：T = 50.8，R = 53.7，Ri = 47.6；
Sketch：T = 48.8，R = 52.0，Ri = 45.4；
Image：T = 53.6，R = 56.2，Ri = 50.8；
Video：T = 54.8，R = 57.2，Ri = 53.6。

Video 相比 Text 提升约：

T：+8.8；
R：+8.3；
Ri：+10.6。

这表明动态交互演示尤其有助于恢复状态变化和隐式产品行为。相比之下，Sketch 获得最高视觉质量分，但在交互和需求覆盖上不如 Image/Video，进一步说明静态视觉结构不是行为正确性的充分条件。

模型 scaling 效应

在 Qwen3.5 家族内，性能从 27B 到 122B-A10B 基本平缓，但到 397B-A17B 出现明显跃升。论文将其解释为 stateful web artifact generation 可能存在一个 scaling knee：模型需要足够容量才能同时处理布局、交互逻辑与状态行为。

缺陷注入：ICG 更敏感

为了验证评测器是否真的能发现状态错误，作者在通过 GT 验证的页面中注入 25 个 state-related defects，并比较 ICG-based evaluation 与 checkpoint-style WebGen signals：

ICG：检测 16/25，DR = 64.0%；
WebGen broad：检测 8/25，DR = 32.0%；
WebGen strict：检测 1/25，DR = 4.0%。

这说明 ICG 对状态一致性错误更敏感，检测率是 broad checkpoint 的 2×，是 strict checkpoint 的 16×。

失败归因：State & Logic 是主瓶颈

论文将失败转移分为四类：

Availability：缺少入口、控件或交互路径；
Execution：控件存在但动作没有生效；
State & Logic：动作后状态、数据规则、目标内容、视觉状态或上下文更新错误；
Feedback & Boundary：验证、禁用状态、加载、错误、确认、空状态等反馈缺失。

GPT-5.5 与 Kimi-K2.6 的失败分布相似，其中 State & Logic 占比最高，其次是 Feedback & Boundary。这说明很多失败不是“按钮找不到”或“点不动”，而是交互发生后，页面没有正确维护状态、规则和边界反馈。

案例分析：购物车状态同步错误

论文给出一个购物车交互案例：用户取消选中唯一商品后，正确页面应将总价清零并禁用 checkout；失败页面虽然更新了 checkbox 状态，却没有同步价格明细和结算按钮状态。

WebRISE 能通过 DOM assertion 和 visual assertion 将错误定位为状态一致性失败，而不是简单的点击执行失败。

6. 总结与贡献 (Conclusion & Contribution)

主要结论

WebRISE 证明：MLLM 生成网页的关键评测对象不应只是视觉外观或局部动作结果，而应是需求诱导的状态转移是否成立。当前模型即使视觉质量较高，也经常在状态同步、隐式约束、边界反馈和跨组件逻辑上失败；Video 等动态输入能改善交互恢复，但远未解决隐式状态一致性问题。

核心贡献

提出 WebRISE 评测范式：将 MLLM-generated web artifacts 的评测重构为 requirement-induced observable state-transition conformance。
构建 Interaction Contract Graph：用状态、转移、DOM/视觉断言和需求映射表达可执行交互契约。
设计契约引导评测协议：通过 adaptive browser agent 执行转移，并用 DOM/visual dual oracle 记录可审计证据。
发布多模态 benchmark：覆盖 442 个任务、5 种输入模态、5,271 条需求、5,495 个转移和 12,441 条断言。
提供诊断性实验发现：揭示最强模型仍约三分之一需求未满足，Video 提供最强交互信号，隐式状态约束和 State & Logic 仍是主要瓶颈。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)

Junjie Wang (王军杰)