: 首页; 看点啥; 插画图片

首页看点啥 Hermes vs Harness：从“会思考”到“可控制”：AI Agent 的系统工程本质

Hermes vs Harness：从“会思考”到“可控制”：AI Agent 的系统工程本质

2026-07-02 0

Hermes vs Harness：从“会思考”到“可控制”，AI Agent 的系统工程本质

一、为什么你的 Agent 总停在 Demo：一个被误判的瓶颈

过去一年，几乎所有团队都尝试过 Agent：自动写代码、自动排障、自动生成发布方案。多数项目在演示阶段表现亮眼，但一旦进入真实环境，问题迅速暴露：输出不稳定、上下文不可控、执行风险难以约束、结果难以审计。很多团队将原因归结为“模型不够强”“提示词不够好”，这其实是对问题的误判。

真正的瓶颈不在模型，而在系统工程层：缺少一个能够承载“思考—执行—反馈—记忆”闭环的运行框架。这个框架，在最新的工程语境中被称为 Harness。如果把 Agent 看作一个系统，那么模型只是计算单元，Harness 才是把这些能力组织起来并对接真实世界的操作系统与控制平面。

二、两个词的分工：Hermes（思考）与 Harness（控制）

将问题抽象到最底层，可以得到一个清晰分工：

• Hermes：负责推理与决策。它体现为长期运行的 Agent，具备记忆、技能沉淀与自我改进能力。• Harness：负责约束与执行。它将不确定的“方案”转化为可验证、可回滚、可审计的“动作”。

这不是语义差异，而是两类系统的边界：Hermes 解决“该做什么”，Harness 解决“如何安全地做，并对结果负责”。

从工程角度看，Hermes 是概率系统（基于统计学习进行推理），Harness 是确定性系统（以规则、状态机和策略为核心）。任何试图仅靠其中一侧完成闭环的方案，都会在生产环境中失败：前者不可控，后者不够智能。

三、Agent 的真正公式：Model Harness

把系统进一步形式化，可以得到一个更实用的表达：

代码语言：javascript

复制

Agent = Model（LLM） Harness（系统能力）

这里的 Harness 并非单一组件，而是一个由多种能力构成的系统集合：

• 状态与记忆（State & Memory）：文件系统、结构化存储、向量索引• 执行环境（Execution）：Shell、容器、远程节点• 工具与接口（Tools / APIs）：数据库、云服务、内部平台• 上下文管理（Context）：裁剪、压缩、检索与装配• 调度与编排（Orchestration）：计划、分解、重试、并行• 策略与治理（Policy & Governance）：权限、审计、回滚

模型不直接接触真实世界，它只能输出“意图”。Harness 的作用，是把“意图”映射为受约束的行动。

四、Hermes 的工程本质：一个长期运行的 Agent Runtime

许多早期 Agent 框架停留在“单次调用”的层面：输入问题，输出答案。Hermes 的关键突破，是把 Agent 明确为一个长期运行的进程，围绕“循环（loop）”构建：

1. 构建上下文（从记忆与状态中检索必要信息）2. 调用模型生成计划或下一步动作3. 执行工具或代码4. 评估结果并更新状态5. 决定继续、重试或终止

这个循环并不复杂，但其工程难点在于：如何让每一轮迭代都可控、可恢复、可优化。这引出了 Hermes 的两个核心子系统：Memory 与 Skills。

五、Memory 不是“向量库”：状态系统的三层设计

很多团队将“记忆”简化为向量检索，这是不够的。Hermes 的做法更接近一个多层状态系统：

1. 持久状态（Persistent Memory）：类似配置与知识基线（如环境信息、账号约束、常用路径），通常以文件或结构化存储存在。它不是检索出来“参考”的，而是每次都参与上下文构建的“前提条件”。2. 经验沉淀（Skills）：将成功路径或修复策略抽象为可复用单元（见下一节）。这是“记忆转能力”的关键桥梁。3. 会话与历史（Session / History）：用于短期推理与回溯，通过全文索引或时间窗口进行选择性加载。

一个重要结论是：

这直接影响 Agent 的稳定性：没有稳定状态，就没有稳定行为。

六、Skills：把经验变成“可执行能力单元”

Hermes 的第二个关键机制是 Skills。它不是简单的 Prompt 模板，而是包含目标、约束、工具链与步骤的能力单元。从工程角度看，一个 Skill 至少包含：

• 触发条件（何时适用）• 输入输出约定• 调用的工具与顺序• 关键约束（例如只读、幂等、回滚策略）• 失败处理路径

Skill 的价值在于缩短推理路径并提升确定性。当一个问题命中已有 Skill 时，Agent 不需要从零开始规划，而是直接复用“经过验证的执行模式”。

更重要的是，Skill 可以自动生成与迭代：当 Agent 多次在某类问题上形成稳定路径，就可以沉淀为 Skill；当路径被证明不稳定，可以替换或版本化。这使得系统具备“工程经验的累积能力”。

七、Execution Runtime：从“会想”到“会做”的跃迁

Agent 一旦具备执行能力，就进入了真实世界：文件系统、网络、服务接口、集群资源。Execution Runtime 的设计必须解决三个问题：

1. 能力边界：允许做什么（读写、部署、重启）？禁止做什么？2. 环境隔离：在哪里做（本地、容器、远程节点）？如何保证不污染宿主环境？3. 失败恢复：执行失败如何回滚或补偿？

常见实现包括：

• 以容器为最小执行单元（短生命周期、可重建）• 通过受控的 Shell/SDK 调用（而非任意命令拼接）• 对外部系统使用带限权的凭据（短期 token、细粒度 RBAC）

一个容易被忽视的事实是：

八、Harness：把不确定的“方案”变成可控的“动作”

当 Hermes 生成了“该怎么做”的方案，系统还缺少关键一步：把方案转化为受控执行。这正是 Harness 的职责。

在现代 DevOps 体系中，Harness 体现为：

• Pipeline 引擎：将步骤编排为可执行流程（含依赖、并行、重试）• 部署抽象：屏蔽基础设施差异（Kubernetes、VM、Serverless）• 验证机制：基于指标与日志判断发布是否健康• 回滚策略：在异常时自动或半自动恢复• 治理与审计：权限控制、审批流、操作记录

关键在于：Harness 不关心“为什么这么做”，它只关心“如何保证这件事被正确、可控地完成”。

九、Verification：发布的本质是“验证”，不是“完成”

传统流水线把“部署成功”当作结束条件，这是不充分的。Harness 的一个重要进化是引入自动验证（Verification）：

• 采集关键指标（错误率、延迟、资源占用）• 与基线或对照组比较（如金丝雀发布）• 通过统计方法判断是否异常• 在异常时触发回滚或暂停

这一步的意义在于把“结果判断”从人转移到系统，并形成闭环：

代码语言：javascript

复制

执行 → 观测 → 判断 → 决策（继续/回滚）

当与 Agent 结合时，这个闭环可以进一步增强：Agent 负责解释异常并提出修复策略，Harness 负责安全地执行与验证。

十、把两者合并：AI 控制系统的三层架构

将 Hermes 与 Harness 统一，可以得到一个清晰的三层模型：

1. 决策层（Decision）：Hermes负责理解问题、生成方案、选择策略与技能。2. 控制层（Control）：Harness（广义）负责策略约束、权限、审计、将方案转为流程。3. 执行层（Execution）：基础设施与部署系统负责实际变更（发布、扩缩容、配置更新）。

这三层之间的接口至关重要：

• 决策层输出必须是结构化计划（而非自由文本）• 控制层需要将计划编译为可执行流水线• 执行层需要提供可观测信号回馈上层

十一、从 DevOps 到 AI Native DevOps：控制权的迁移

传统模式是“人直接驱动流水线”。在 AI 介入后，控制权发生迁移：

代码语言：javascript

复制

Human → Agent（Hermes）→ Harness → System

这带来两点变化：

1. 人不再直接操作系统，而是审阅与干预决策2. 系统需要对 AI 的行为负责（审计、回滚、解释）

因此，企业落地的关键不在“让 AI 更聪明”，而在“让 AI 的行为可控且可追责”。

十二、实现细节：如何把“方案”编译为 Pipeline

一个可落地的路径是把 Agent 输出限定为中间表示（IR），再由控制层编译为具体流水线。例如：

• Agent 输出：• 目标：修复服务 A 的错误率上升• 步骤：1. 回滚到版本 v1.2.32. 启用金丝雀发布新补丁3. 观察 10 分钟指标• 约束：仅影响 10% 流量，失败自动回滚• 控制层：• 校验权限与风险等级• 生成对应的 Pipeline（含部署、分流、验证、回滚节点）• 注入审计与日志

这种“IR → Pipeline”的编译过程，是连接 Hermes 与 Harness 的关键技术点。

十三、策略与治理：为什么必须有 Policy Engine

当 AI 具备执行能力，治理不再是可选项。Policy Engine 的职责包括：

• 权限控制：不同环境、资源、操作的访问边界• 风险分级：高风险操作必须人工审批或双重验证• 合规约束：如变更窗口、冻结期、审计要求• 行为限制：禁止某些命令或跨越特定边界

策略不应写死在代码中，而应以可配置规则存在，并在执行前与执行中生效。这也是将系统从“工具”提升为“平台”的关键。

十四、上下文管理：为什么 Agent 会“越跑越差”

长周期任务的常见问题是上下文膨胀与“语义漂移”。有效的做法包括：

• 分层上下文：区分长期状态、技能、当前任务• 摘要与压缩：定期对历史进行结构化总结• 按需加载：仅加载与当前步骤相关的信息• 技能替代：用 Skill 代替重复的长 Prompt

本质上，这是在做一个“运行时内存管理系统”，避免无序增长导致推理质量下降。

十五、安全边界：从 Prompt 安全转向 Runtime 安全

一旦 Agent 能执行命令，安全问题的重心就从“防注入”转向“防越权执行”。可行的工程手段包括：

• 最小权限原则：为不同任务颁发最小化的短期凭据• 沙箱执行：所有操作在隔离环境中进行• 命令白名单/黑名单：限制可执行范围• 网络隔离：控制外部访问能力• 操作审计：每一步都有可追溯记录

安全不是通过更复杂的 Prompt 解决，而是通过系统边界与策略实现。

十六、失败与回滚：把“错误”纳入设计

在 AI 参与决策的系统中，错误是常态。关键在于：

• 设计幂等操作：多次执行不会产生副作用• 提供回滚路径：每个关键步骤都可恢复• 分阶段执行：小步快跑，降低单次风险• 自动与人工结合：低风险自动处理，高风险需要审批

Harness 的价值，在于把这些机制标准化，使得错误不会演化为事故。

十七、一个可落地的整体方案（面向 ITSM / DevOps）

结合以上要素，可以构建一个实际系统：

1. 输入层：告警、工单、监控事件2. 决策层（Hermes）：分析根因，生成结构化修复计划3. 控制层（Policy Compiler）：校验风险，编译为 Pipeline4. 执行层（CD / Infra）：执行部署、配置、扩缩容5. 验证层（Observability）：判断效果，触发回滚或继续6. 沉淀层（Memory / Skills）：记录经验，优化后续行为

关键不在某一个组件，而在闭环是否完整且可控。

十八、一个重要判断：竞争焦点正在从模型转向系统

过去的竞争在模型规模与效果；现在的竞争，正在转向：

• 谁能构建更稳定的 Harness• 谁能把经验沉淀为 Skills• 谁能在安全与效率之间取得平衡

换句话说：

十九、回到标题：Hermes 与 Harness 的真正关系

现在可以给出一个更精确的结论：

• Hermes 让系统具备“思考与学习”的能力• Harness 让系统具备“控制与执行”的能力

两者不是替代关系，而是相互依赖的两极。缺少任何一方，都无法形成可落地的生产系统。

二十、结语：从“聪明”到“可靠”的跃迁

当我们讨论 Agent 时，容易被“智能”吸引，但真正决定系统成败的，是“可靠性”。Hermes 解决了“会不会想”，Harness 解决了“能不能安全地做并对结果负责”。

如果你正从 Demo 走向生产，那么下一个该投入精力的，不是再换一个模型，而是设计你的 Harness：定义状态、约束执行、建立验证与回滚、沉淀经验。只有这样，Agent 才会从一次次惊艳的演示，变成长期稳定的生产力。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2026-04-18，如有侵权请联系[email protected] 删除

喜欢(0)

解剖ChatGPT-1 GPT-1/2/3/4演进史：OpenAI是如何一步步行走的

大模型安全学习专题（8）：从 NIDS 到 AI Firewall——LLM 安全的技术架构演进