: 首页; 看点啥; 插画图片

首页热点时事从Claw-Eval到Claw-Eval-Live:Agent评测“下半场”，为什么需要一个"活的" Benchmark？

从Claw-Eval到Claw-Eval-Live:Agent评测“下半场”，为什么需要一个"活的" Benchmark？

2026-05-24 0

作者：港中文，港中深，港大，北大，厦大，华南理工

从Claw-Eval到Claw-Eval-Live:Agent评测“下半场”，为什么需要一个"活的" Benchmark？

解读：AI生成未来

导读今天的 AI Agent 看起来越来越像"能干活的数字员工"了：能调 API、查数据库、写邮件、改代码、排日程、做报表。但真正麻烦的问题不是它"会不会说"，而是两件更现实的事：它到底有没有真的做成任务；以及我们拿来测它的那些任务，是不是还代表当下真实世界最重要的 workflow。

Claw-Eval 回答前者，Claw-Eval-Live 回答后者。前者解决的是"怎么确认 Agent 真的做成了任务"，后者解决的是"benchmark 里的题库如何持续跟上现实需求"。这篇文章想讲的，也正是这条连续升级的评测逻辑。某种意义上，这也是 Agent benchmark 进入"下半场"的标志：不再只比较谁更会答题，而是比较谁更接近真实世界。

亮点直击

本文围绕我们最近连续发布的两项工作展开：Claw-Eval 与 Claw-Eval-Live。前者试图回答一个基础但长期被忽视的问题：Agent 到底有没有真的完成任务，而不只是生成了一个看起来正确的结果；后者则进一步追问：即便评测足够可信，我们测的任务是否仍然代表当下真实世界最重要的 workflow。
文章从这条清晰的演进主线出发，介绍了 Claw-Eval 如何通过执行轨迹、审计日志和环境快照，把Agent 评测从“只看结果”推进到“看过程、看安全、看鲁棒性”；也介绍了 Claw-Eval-Live 如何借助公开 workflow signals 和时间戳快照机制，把 benchmark 从静态题库推进到“活的”任务分布。
基于两篇论文的核心实验结果，文章进一步讨论了一个反直觉但重要的结论：今天 Agent 的主要瓶颈，未必是终端操作或环境修复，而更可能是跨系统、跨服务、需要证据闭环的业务工作流。整篇文章试图说明，Agent Benchmark 的下一阶段，不只是更大规模地出题，而是同时解决“测得准”和“测得对”这两个问题。

一、先把第一个问题说清楚：你确定 Agent 真的"做了"？

在 Claw-Eval 之前，主流 Agent 评测的做法是：给 Agent 一个任务，看最终结果，判对错。文件创建了？测试通过了？答案匹配了？那就算过。

听起来合理，但对于 Agent 来说，这样的评测有两个致命问题。

第一，它只看结果，不看行动。模型交了一份漂亮报告，但它真的查了正确的数据源吗？真的调了对的 API 吗？还是只是"编"了一个看起来对的答案？近期研究已经表明，前沿模型会主动寻找评测捷径，绕过预期的执行路径直接满足最终检查。只看结果的评测，恰恰给了这种行为可乘之机。

第二，它很难反映真实部署要求。一个真正可部署的 Agent，不仅要能把活干完，还要在干活的同时避免不该做的事，并且能在 API 超时、服务报错的环境里稳定运行。换句话说，评测不能只看"能不能做出来"，还要看"是不是安全地做、稳健地做"。Claw-Eval 还进一步把多模态和多轮对话也纳入统一评测框架，但它最关键的贡献，首先是把 Agent 评测从"只看答案"推进到"看行动"。

二、Claw-Eval：让 Agent 的执行过程变成可审计证据

Claw-Eval 包含 300 道人工验证任务，覆盖通用服务编排、多模态感知与生成、多轮专业对话三大群组，共定义了 2,159 个可独立验证的评分细则。

它的核心思路可以概括成一句话：让 Agent 的执行过程变成可审计证据。每次评测都在隔离环境中进行，分为 Setup、Execution、Judge 三个阶段；在 Agent 运行时，容器里看不到评分脚本和参考答案。真正用于打分的，不只是最终输出，而是三条独立证据链：执行轨迹、服务端审计日志、以及执行后的环境快照。在这个基础上，Claw-Eval 再把完成度、安全性、鲁棒性和跨模态任务统一纳入同一套评测框架。

Claw-Eval 最关键的发现，其实非常直接：如果不看过程，Agent 评测会系统性"放水"。

团队做了一个严格对照实验：让一个 vanilla LLM judge 拿到完整对话记录和评分脚本源码，只缺服务端审计日志和环境快照。结果是，它仍然漏掉了 44% 的安全违规和 13% 的鲁棒性问题。这意味着，对 Agent 来说，"只看结果"的评测方式不是不够精细，而是会系统性高估模型。

Claw-Eval 当然还展示了更多东西，比如错误注入会显著拉低可靠性（Pass^3 最多暴跌 24 个百分点）、多模态和多轮对话能力并不存在统一冠军。但对这篇文章来说，最重要的结论只有一个：Agent benchmark 不能只看答案，而要看行动。

但当"怎么看"终于被厘清之后，另一个更现实的问题也浮现出来了：即便评测足够可信，如果 benchmark 测的工作流本身已经慢慢偏离现实需求，那评得再准，也未必评在点子上。

这正是 Claw-Eval-Live 想接着解决的问题。

三、但"评得准"还不够：benchmark 也会过时

从这里开始，问题不再只是"怎么评"，而是"评什么"。这也是 Claw-Eval-Live 真正切入的位置。

Claw-Eval 解决了"评分是否可信"的问题。但它和几乎所有现有 benchmark 一样，有一个更根本的局限：

任务集合是固定的。

300 道任务，发布那天就定住了。不管外面的工具生态怎么变、企业工作流的重心怎么迁移、用户最想让 Agent 自动化的事情从日报写作变成了跨系统对账——benchmark 里的任务分布不会跟着动。

在传统 NLP 评测里这不是大问题，"翻译一段话""回答一个问题"这类任务形态相对稳定。但在 Agent 评测里，这个问题被急剧放大了。Agent 面对的不是抽象的语言任务，而是具体的工作流。而工作流一直在变——工具栈在迭代，企业痛点在迁移，某些自动化场景从无到有，另一些从核心变成边缘。

一个 benchmark 可以在技术上保持完全可复现，但它测的任务组合，可能正在悄悄偏离用户此刻最想让 Agent 干的事情。

这种偏移不来自某道具体任务"过时"了，而来自任务混合比本身。 半年前最热的自动化需求和今天最热的，很可能已经不是同一组东西了。

这就是 Claw-Eval-Live 要解决的问题。

四、一个"活的" benchmark 到底长什么样？

听到"live benchmark"，很多人的第一反应是：那不就每天都变，根本没法比了吗？

Claw-Eval-Live 的回答不是"让 benchmark 一直变"，而是：

让每一次 release 都成为当下真实世界的一张切片。

它的核心是两层分离的设计：

信号层（Signal Layer）——每次构建新 release 时，不是团队自己头脑风暴"应该测什么"，而是从 ClawHub Top-500 热门技能等公开 workflow demand signals 出发，观察此刻哪些工作流更值得关注。这里要强调的是，这些信号不是自动出题器，更不是对真实需求的精确测量。它们只是一个公开、可检查的需求先验，用来帮助 benchmark 决定这一版 release 应该更关注哪些 workflow。

发布层（Release Layer）——真正公开出来的 benchmark 依然是固定的、带时间戳的 snapshot。任务定义、执行环境、数据夹具、评分脚本全部锁定。模型之间完全可以稳定比较，学术上也完全可复现。

两层之间通过一条五阶段流水线连接：

1. 信号采集：抓取 ClawHub Top-500 的时间戳快照，每条信号带来源和元数据 2. 模式聚类：将碎片化的技能名称聚合成稳定的工作流模式——区分的不是技能的表面名称，而是背后的用户目标、操作对象和执行环境 3. 家族加权：根据上游信号强度确定各任务家族的目标权重，信号越强的工作流在 release 中占比越大 4. 种子扩展与筛选：将加权模式展开为可执行的任务候选，试跑筛选后只保留可运行、可复现、且能产生有效分数差异的候选——从 178 个生成候选筛选到 157 个 5. 区分度优化选取：用混合整数线性规划（MILP）从 157 个候选中选出 105 道公开任务，同时优化三个约束——发布规模、家族覆盖、和榜单区分度

这里的 MILP 不是在机械追求"多样性"，而是在把三件事显式化：公开 release 要有多大、每个 family 至少要被覆盖、以及这套题要能真正拉开模型差距。把这些原本模糊的策展判断变成可审计的约束，是 Claw-Eval-Live 让 release 构建本身也变得透明的方式。

当前公开 release 的规模：105 道任务，22 个任务家族，13 个前沿模型。任务分为两大执行环境——87道服务驱动的业务工作流（涉及 CRM、邮件、日历、财务、工单等 18 个受控服务）和 18 道本地工作空间修复任务（终端操作、环境修复、配置调试）。

每道任务不只是一个 prompt，而是一个完整的可执行评测单元：任务定义（task.yaml）、工具接口、数据夹具、以及专属评分脚本（grader.py），缺一不可。评分沿用 Claw-Eval 的证据锚定原则——在整个 release 中，最常见的三类确定性证据包括：数据检索（是否调用了正确的工具和数据源）、数据准确性（实体和数值是否与 ground-truth 一致）、行动验证（必需的状态变更是否真的发生）。只有当这些确定性检查无法覆盖的语义维度（如报告组织质量、摘要连贯性）时，才引入结构化 LLM judge。

所以，从项目演进上看，两个工作是一脉相承的：

Claw-Eval 解决"评分可信"——让我们看清 Agent 到底做了什么。 Claw-Eval-Live 解决的是"题库跟上现实"——让 benchmark 不再停留在一套固定题目上，而是持续对准当下最该测的 workflow。

五、当 benchmark 真正贴近现实，我们看到了什么？

13 个前沿模型在当前 release 上的结果足够直接，也足够冷峻。

整体天花板依然很低

没有任何模型突破 70% 的通过率。榜首到末尾差距达 22.9 个百分点。真实工作流自动化，远没有到"可靠部署"的阶段。

值得注意的是，通过率相近的模型，完成度可以差很远。MiMo V2 Pro、Kimi K2.5、Gemini 3.1 Pro 三个模型都是 53.3% 的通过率，但 Overall Completion 从 76.9 拉到 74.0。这说明有些模型不是完全不会做，而是经常"差一点做完"——问题不在语言能力，而在执行闭环。

真正有冲击力的发现：难的不是你以为的那些

如果只凭直觉，很多人会觉得最难的肯定是终端操作、环境修复这些需要硬核技术能力的任务。

Claw-Eval-Live 给出的结果恰恰相反。

从分组热力图看，Development / Terminal 对强模型已经接近天花板：Claude Opus 4.6、GPT-5.4 和 Claude Sonnet 4.6 在这个切面上都达到 100%，最弱模型也在 72.2% 以上。真正困难的，是 HR / People、Management / Ops 以及跨系统 workflow 这类业务任务。HR / People 这一组里，没有模型超过 22.2%，而且有多个模型直接是 0。

进一步看细粒度 family，结论更尖锐。HR 的平均通过率只有 6.8%；MGMT 在公开 pass 规则下是 all-fail；WORKFLOW 的平均通过率也只有 12.8%。相反，看上去"更技术"的 workspace repair 反而相对容易。整个 benchmark 分成两种执行面之后，这个差异更明显：workspace 这一侧，所有模型都至少达到 72.2%；而 service-backed workflows 这一侧，没有模型超过 59.8%。

这意味着，当前 Agent 的主要瓶颈，已经不是"会不会用 terminal"，而是"能不能在多个系统之间持续收集证据、正确关联记录，并完成必须的写操作"。

论文中最能说明这个问题的，是几个高区分度任务的表现模式。像电商月度对账（ecommerce_monthly_reconcile）、客服首次响应时间审计（first_response_time_audit）和多文档合并（multi_doc_merge），它们的共同特征是：必须从多个来源精确提取数据，任何一个工具调用的遗漏或实体链接的错误都会导致大幅扣分。

以论文附录展示的代表性子矩阵里的 HR_01_onboarding 为例，多个模型都能写出体面的入职文档，但在公开通过阈值之下。问题不是文档是否通顺，而是它没有真正把员工信息、必需的 tool call 和任务证据闭环补齐。它更像是在"说"一件事，而不是"做完"一件事。

这是 Claw-Eval-Live 最有价值的发现：今天 Agent 最难的地方，不是"修一个坏掉的东西"，而是"在多个系统之间，把一件业务真的做完"。

"说得好"不等于"做得到"

Claw-Eval-Live 的排名和通常的聊天/写作 benchmark 排名并不一致，这恰恰是它的价值所在。

它不奖励"最终回答写得多流畅"，而是奖励跨系统证据收集、正确的记录关联、行动闭环和执行后状态完整性。一个模型可以写出极其流畅的总结，但如果它漏了必需的工具调用、遗漏了关键证据、或者工作空间状态不对——在这里照样拿不到分。这就是 "can say" 与 "can do" 的核心区别。

再多看一眼部署视角：成本同样重要

如果从部署角度再看一眼榜单，估算 API 成本差异同样巨大。这里强调"估算"：论文按记录的输入输出 token 用量和发布时 provider list price 计算，并不等于真实账单。Claude Opus 4.6 准确率最高，但跑完整个 105 题 release 的估算 API 成本约 31.6 美元；GPT-5.4 以约 6.3 美元拿到第二名，通过率只低 2.9 个百分点；GLM-5 以约 2.5 美元达到与 Claude Sonnet 4.6 相同的 61.9% 通过率，估算成本约为 Opus 的 7.8%，也就是约 1/12.8。对真正要部署 Agent 的团队来说，总榜只是起点，更实际的决策维度是"具体 workflow 家族上的准确率 × 成本"。

六、从 Claw-Eval 到 Claw-Eval-Live，我们到底推进了什么？

	Claw-Eval	Claw-Eval-Live
核心问题	怎样评分才可信？	我们测的任务还代表当下真实 workflow 吗？
设计思路	全轨迹审计 + 证据锚定评分	公开信号校准 + 时间戳快照 + 活的任务分布
规模	300 道 / 14 模型 / 2,159 评分细则	105 道 / 13 模型 / 22 家族 / 18 服务
关键发现	只看结果会系统性高估 Agent	最强模型不超过 70%；真正难的是跨系统 workflow
一句话	看清它有没有真的做成	让题库跟上当下 workflow

Claw-Eval 把 Agent 评测从"只看结果"推进到"看过程"。它最关键的贡献，是证明了如果没有执行轨迹、审计日志和环境快照，Agent benchmark 会系统性高估模型。

Claw-Eval-Live 则把 Agent 评测从"静态题库"推进到"与真实需求共同演化的任务快照"。它揭示了：当 benchmark 真正对齐现实工作流后，最好的模型也只能通过三分之二的任务；直觉上很难的终端修复其实已经接近解决，真正的瓶颈是跨系统的业务编排；HR、管理以及 workflow 类任务依然明显偏难。

这两步缺一不可。

没有第一步，你可能会被一个"看起来很会做事"的 Agent 欺骗——它的报告写得很好看，但它从来没有真正查过那些数据。

没有第二步，你可能会用一套逐渐脱离现实的任务集合，得出一个看似精确但不再 relevant 的结论——你的榜单很稳定，但它在回答一个没人再问的问题。

写在最后

如果 Agent 真的要走向部署，benchmark 就不能只产出一张榜单。它还应该回答两件事：这个 Agent 有没有真的完成任务；以及我们究竟在拿什么任务定义"会干活"。

Claw-Eval 回答的是前一个问题：我们怎么知道 Agent 真的做成了任务。Claw-Eval-Live 回答的则是后一个问题：我们究竟在拿什么任务定义"会干活"。前者为 Agent 评测打下了可信基础；后者则把 benchmark 从一套静态题库，推进到与真实世界一起演化的任务快照。对今天的 Agent 来说，这一步尤其关键。因为当能力开始接近部署边界时，真正重要的不再只是"会不会做题"，而是 benchmark 测的，是否还是现实世界里最值得自动化的工作流。

如果说过去的大模型竞争更像能力展示的上半场，那么面向真实 workflow 的评测、验证与部署，才是 Agent benchmark 的下半场真正开始的地方。

先把 Agent 评测做实，再让 benchmark 跟上真实世界。

参考文献

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

喜欢(0)

上一篇

苹果手机闹钟设置在哪里找_苹果手机时钟app闹钟设置入口

苹果手机闹钟设置在哪里找_苹果手机时钟app闹钟设置入口

下一篇

电视剧《没有砍十次还不倒的树》剧情介绍

电视剧《没有砍十次还不倒的树》剧情介绍

猜你喜欢

Copyright © 2022 漫资讯 · Powered By WordPress