2026工作室风格海报照
2026-07-05 3382065
2026-07-05 0
快速调教好Agent的关键在于实现可观测与可追溯,让AI真正成为生产力工具而非隐患。核心内容:1. B端场景下AgentOps的刚需与核心要求2. 通过CI修复Agent的极端案例揭示问题本质3. 一条最小可用的运行trace所揭示的具体改进点
对于大部分 C 端场景,AI 回答得不好,人可以换个问法,或者不用这段答案,厂商基本不用承担法律责任。但 B 端不行,如果你给客户推荐的供应商、商品出现了问题(如不符合其公司红线要求等),人家是可能找你麻烦的。所以 AgentOps 对 B 端,或者 C 端某些重要场景(如交易场景),非常重要,这就要求我们给用户的 Agent 要可见、可溯源、可归因、可复盘等:如果做不到这些,就直接给客户使用的话,那么就永远只能停留在助手的定位,不能真正成为客户的生产力。举几个例子讲讲:
01
例子一:CI 修复 Agent 把测试修绿了,但把断言改松了| 指标 | 结果 |
|---|---|
| 任务耗时 | 7 分 42 秒 |
| 模型调用 | 6 次 |
| 工具调用 | 11 次 |
| 修改文件 | 2 个 |
| 测试结果 | 订单模块单测通过 |
| 输出结果 | 自动开出修复 PR |
| 时间 | 步骤 | 关键记录 |
|---|---|---|
| 10:12:03 | 接收任务 | PR-4821,目标:修复 order-discount 单测失败 |
| 10:12:11 | 读取日志 | 失败用例:should_apply_coupon_after_member_discount |
| 10:12:29 | 检索文件 | 读取 discount_calculator.go、discount_calculator_test.go |
| 10:13:08 | 生成计划 | 判断失败原因:测试期望值与当前实现不一致 |
| 10:14:22 | 第一次修改 | 修改测试断言,放宽期望值 |
| 10:15:10 | 运行测试 | go test ./order/... 通过 |
| 10:15:33 | 风险检查 | 未命中“断言放宽”规则 |
| 10:19:45 | 开 PR | 输出:修复单测失败 |
| 10:36:18 | 人工 Review | 驳回原因:断言被放松,没有证明业务逻辑正确 |
02
例子二:采购 Agent 推荐了高风险供应商,trace 发现是工具返回字段不够| 步骤 | Agent 看到的内容 | 问题 |
|---|---|---|
| 意图识别 | 任务:为 MRO 低值耗材寻源项目推荐供应商 | 正确 |
| 寻源项目查询 | 项目金额:18 万;品类:办公耗材;候选供应商:A、B、C | 正确 |
| 报价查询 | A 供应商报价最低,低于第二名 4.8% | 正确 |
| 供应商查询 | A 供应商状态:合作中;历史交付及时率:96%;评分:92 | 少了“品类冻结”和“质量处罚”字段 |
| 采购规则检索 | 召回“低值耗材优先价格和交付稳定性”规则 | 没命中“冻结供应商不得推荐”规则 |
| 风险判断 | 风险等级:低 | 应为高风险 |
| 结果写回 | 写入“建议选择 A 供应商” | 错误推荐被固化 |
| 指标 | 修改前 | 修改后目标 |
|---|---|---|
| 高风险供应商拦截率 | 71% | 98% 以上 |
| 错误推荐数 | 每周 2 起 | 连续 4 周为 0 |
| 供应商风险字段缺失导致失败 | 每周 4 起 | 每周复盘清零 |
| 高风险寻源项目人工接管率 | 22% | 60% 以上 |
03
Agent 实现里,trace 要作为一等功能来做| 字段 | 示例 | 作用 |
|---|---|---|
| run_id | sourcing-agent-20260629-0008 | 串起一次完整运行 |
| agent_id | supplier_recommend_agent | 知道是谁干的 |
| tenant_id | tenant_037 | 支持租户隔离和审计 |
| task_type | supplier_recommendation | 分场景统计 |
| trigger_type | sourcing_project_submitted | 人触发还是流程触发 |
| input_object_id | sourcing_project_9042 | 回查业务对象 |
| risk_level | medium | 决定是否允许自动执行 |
| owner | 采购负责人 / 项目负责人 | 发生问题找得到责任人 |
| status | running / blocked / completed / rejected | 运行状态 |
| 字段 | 示例 |
|---|---|
| source_type | 供应商主数据 / 采购规则 / 历史履约 / 质量异常 |
| source_id | supplier_ A、rule_2026_08 |
| source_version | v12、2026-06-20 |
| permission_scope | 当前用户可见 / 当前项目可见 / 脱敏后可见 |
| retrieval_reason | 因为任务品类是办公耗材,所以召回该品类准入规则 |
| data_quality_flag | 字段完整 / 字段缺失 / 版本可能过期 |
| content_hash | 用于证明当时读取的是哪一版内容 |
| 字段 | 示例 |
|---|---|
| tool_name | supplier_profile_query |
| tool_version | v3.4 |
| request_schema_version | 2026-06 |
| params_summary | 品类:办公耗材;候选供应商:A/B/C |
| params_hash | 避免敏感参数明文扩散 |
| permission_decision | allow / deny / require_approval |
| response_summary | A 供应商合作中,评分 92 |
| missing_fields | category_freeze_status、quality_penalty |
| latency_ms | 283 |
| error_code | 无 / 超时 / 权限不足 / 数据不完整 |
| 字段 | 示例 |
|---|---|
| decision_type | recommend_supplier |
| candidate_action | 推荐 A 供应商 |
| evidence_refs | 报价最低、交付及时率 96%、评分 92 |
| rule_hits | 命中低值耗材价格优先规则 |
| risk_rule_hits | 未命中供应商冻结规则 |
| confidence | 0.78 |
| alternative_actions | 推荐 B;转人工;补充查询 |
| why_not_human | 系统判断为中低风险 |
| 字段 | 示例 |
|---|---|
| validation_type | 供应商风险校验 |
| check_name | 黑名单 / 冻结 / 资质有效期 / 品类准入 |
| check_result | pass / fail / skipped |
| evidence_ref | supplier_risk_query_0007 |
| skipped_reason | 工具未返回字段 / 权限不足 / 规则未配置 |
| must_human_review | true / false |
04
一个最小可用的 Agent 运行记录示例| 字段 | 例子 | 用途 |
|---|---|---|
| run_id | ci-fix-20260628-0017 | 串起一次完整运行 |
| task_type | CI 修复、供应商推荐、发布说明 | 分场景统计 |
| trigger | CI 失败、寻源项目提交、release 创建 | 看触发来源 |
| risk_level | 低 / 中 / 高 | 决定是否自动执行 |
| input_object | PR-4821、寻源项目-9042、发布单-126 | 回查业务对象 |
| context_sources | 日志、供应商资质、采购规则版本、发布记录 | 判断是否看错事实 |
| plan_steps | 读取日志、检索代码、修改文件、跑测试 | 回放行动路径 |
| tool_calls | 调用供应商查询、寻源比价、测试命令、发布系统查询 | 追踪工具和权限 |
| decision_points | 是否转人工、是否开 PR、是否拦截推荐、是否发布草稿 | 复盘关键判断 |
| validation | 测试通过、规则命中、人工确认 | 判断结果是否可信 |
| cost | token、耗时、模型调用次数 | 控制成本 |
| outcome | 成功、人工驳回、用户投诉、测试失败 | 进入看板 |
| follow_up | 改 prompt、补工具字段、加 eval case | 进入改进闭环 |
05
用户侧周复盘:把 Agent 用成自己的业务学习系统| 复盘项 | 本周看到的问题 | 用户侧改进 |
|---|---|---|
| 自动完成 | 低风险耗材推荐基本稳定 | 继续放开低风险品类 |
| 人工驳回 | A 供应商因品类冻结被驳回 | 补充冻结规则和供应商状态字段 |
| 规则问题 | 老采购知道的红线系统不知道 | 把红线写成规则和审批条件 |
| 使用问题 | 有人把 Agent 建议当最终结论 | 明确“建议、审批、执行”的责任边界 |
登录查看剩余 70% 内容