首页
看点啥
插画图片
首页 热点时事 还在手动操作电脑?Hermes Agent 后台操控: 让你边喝咖啡边办公

还在手动操作电脑?Hermes Agent 后台操控: 让你边喝咖啡边办公

2026-06-14 0

Hermes Agent 电脑操控使用教程

想让 Agent 帮你操作电脑,又怕它抢走鼠标键盘、干扰手头工作?Hermes Agent 电脑操控(Computer Use)正是为此而生——一项后台桌面自动化能力,可在不干扰用户当前操作的前提下,实现 Mac 桌面的点击、输入、滚动、拖拽等操作,让 Agent 与你协同工作。本文从核心原理、安装配置、基础用法、安全机制到性能优化,带你全面掌握电脑操控功能。

还在手动操作电脑?Hermes Agent 后台操控,让你边喝咖啡边办公

一、核心能力与工作原理

1.1 核心价值

1.2 工作原理

电脑操控依赖 cua-driver 开源驱动,通过 macOS 私有 SPI 实现后台事件注入:

  1. 直接向目标进程发送合成事件,无需模拟光标 / 焦点。

  2. 后台激活窗口,不切换桌面空间。

  3. 维持应用无障碍树,确保元素可被识别。

  4. Hermes 通过 MCP 协议与驱动通信,转发操作指令。

图1:Computer Use 架构图

flowchart LR  Agent[Hermes Agent] -->|MCP 协议| Driver[cua-driver
开源驱动] Driver -->|macOS 私有 SPI| Events[后台合成事件] Events -->|点击 / 输入 / 滚动 / 拖拽| Target[目标进程] Target -->|无障碍树| Driver Driver -->|截图 + SOM 标注| Agent

二、安装与权限配置

2.1 启用电脑操控

  1. 运行工具配置命令:
hermes tools


  1. 选择 ️ Computer Use (macOS)cua-driver(后台)

  2. 自动执行安装脚本,部署驱动。

2.2 授予系统权限

安装后需开启两项关键权限:

  1. 辅助功能权限:系统设置 → 隐私与安全性 → 辅助功能,允许终端 / Hermes。

  2. 屏幕录制权限:系统设置 → 隐私与安全性 → 屏幕录制,允许终端 / Hermes。

2.3 启用工具集

临时启用

hermes -t computer_use chat


永久启用

编辑配置文件 ~/.hermes/config.yaml

toolsets:- computer_use


三、基础操作与快速示例

3.1 核心操作指令

1. 捕获屏幕(capture)

获取屏幕截图并标注元素编号(SOM 模式):

computer_use(action="capture", mode="som", app="Mail")


2. 点击元素(click)

通过元素编号点击按钮 / 链接:

computer_use(action="click", element=14)


3. 输入文本(type)

向输入框填写内容:

computer_use(action="type", text="from:stripe")


4. 按键操作(key)

执行回车、ESC 等按键:

computer_use(action="key", keys="return", capture_after=True)


3.2 实战示例:查找邮件

目标:查找 Stripe 最新邮件并总结。

  1. 捕获邮件应用屏幕,获取元素编号。

  2. 点击搜索框,输入发件人过滤条件。

  3. 回车提交,重新捕获结果。

  4. 点击首封邮件,读取内容并总结。

用户指令

Find my latest email from Stripe and summarise what they want me to do.


四、模型兼容与视觉支持

4.1 支持模型

4.2 截图传输

截图以图片形式嵌入工具结果,适配各模型格式:

五、安全防护机制

5.1 操作审批

危险操作(点击、输入、拖拽)需人工确认:

5.2 危险拦截

1. 屏蔽按键

禁止清空回收站、锁屏、注销等操作。

2. 屏蔽文本

拦截 curl | bashsudo rm -rf 等危险命令。

3. 行为限制

5.3 安全级别配置

security:approval_level: always  # 所有操作需确认


六、性能优化

6.1 截图优化

四层优化降低 Token 消耗:

  1. 截图淘汰:仅保留最近 3 张截图。

  2. 客户端压缩:清理旧图片数据。

  3. Token 估算:图片按 1500 Token 计费。

  4. 服务端清理:Anthropic 自动清理旧结果。

6.2 典型开销

20 步操作约消耗 30K Token(非 600K)。

七、限制与注意事项

7.1 平台限制

仅支持 macOS,依赖 Apple 私有 SPI。

7.2 版本风险

macOS 更新可能导致 SPI 变更,建议锁定驱动版本:

HERMES_CUA_DRIVER_VERSION=0.5.0


7.3 性能说明

后台模式比前台慢 5-20ms,不影响常规操作。

7.4 密码限制

禁止输入密码,建议使用系统自动填充。

八、常见问题排查

  1. 驱动未安装:重新运行 hermes tools 启用电脑操控。

  2. 点击无效:重新捕获屏幕,元素编号可能过期。

  3. 危险拦截:拆分危险命令或调整安全级别。

  4. 权限缺失:重新开启辅助功能 / 屏幕录制权限。

总结

Hermes Agent 电脑操控是 macOS 专属的后台桌面自动化利器,通过私有 SPI 实现无感操作,兼容主流大模型,兼顾安全与效率。无论是邮件处理、浏览器操作还是文档编辑,均可通过自然语言指令实现自动化,大幅提升办公效率。需注意平台限制与安全规范,合理配置权限与模型,即可高效协同办公。

喜欢(0)

上一篇

零基础上手!阿里云ECS+Hermes Agent+百炼Token Plan部署详细步骤 含完整代码

零基础上手!阿里云ECS+Hermes Agent+百炼Token Plan部署详细步骤 含完整代码

下一篇

争论几十年的水之谜:被AI一举破解!港城大和中石大成果登Nature Physics

争论几十年的水之谜:被AI一举破解!港城大和中石大成果登Nature Physics
猜你喜欢