: 首页; 看点啥; 插画图片

首页热点时事直接减少95%token消耗:6 月爆火的省钱神器 Headroom 来了 Codex Cursor 终于不用...

直接减少95%token消耗:6 月爆火的省钱神器 Headroom 来了 Codex Cursor 终于不用...

2026-06-23 0

原创大石 2026-06-22 14:44 美国

一个开源的省Token工具Headroom，火了！

编辑 | 大石

一个开源的省Token工具Headroom，火了！

Headroom Star History，6月后项目热度快速上涨

Trendshift页面显示，Headroom在6月2日第一次冲到GitHub Trending第1名；Star History曲线也能看到，项目热度6月后明显上升。

根本原因是因为AI编码工具开始跑长任务后，token不够用了。

截至6月22日，公开页面显示Headroom已有4万多个star，最新版本是v0.26.0。一个“上下文压缩层”工具能到这个热度，已经说明很多问题。

如果你经常用Codex、Cursor、Claude Code写代码，大概率会遇到一个很微妙的问题。

刚开始确实爽。AI能写代码、修Bug，自己循环验证。可一旦任务稍微变长，token的消耗就开始起飞。模型还没正式开始写代码，光是“读材料”就先烧了一大截上下文。

插件Headroom，专门处理这种问题：在内容进入大模型之前，先把上下文压缩一遍。

它更像AI Agent和大模型之间的一层“上下文压缩器”。

官方介绍写得很简单：压缩工具输出、日志、文件和RAG chunks，减少60%到95%token，同时尽量保持答案不变。

Headroom官方Demo，展示压缩前后的token变化

它拦在模型前面，先给上下文瘦身

Headroom的定位不难理解。

你让AI Agent干活时，它会不断把信息喂给模型：工具返回、终端日志、测试结果、文件内容、RAG检索结果、对话历史。

Headroom在这些内容和模型之间，先判断内容类型，再选择压缩方式。

官方列出的用法也比较直接。

·库模式：用`compress(messages)`接到Python或TypeScript应用里。

·代里模式，用`headroom proxy --port 8787`放在模型API前面，尽量不改业务代码。

·代里包装，用`headroom wrap claude|codex|cursor|aider|copilot`包住常见AI编码工具。

·MCP服务，用`headroom_compress`、`headroom_retrieve`、`headroom_stats`给支持MCP的客户端调用。

它还做了跨代里内存、`headroom learn`、输出token缩减等能力。更棒的是，它没有逼开发者换工作流，而是尽量塞进已有工具链。

Headroom支持库、代里、agent wrap、MCP server等多种形态

真正省下来的，是日志和工具输出

Headroom官方说，在真实Agent工作环境里，token可以减少60%到95%。

当然，不能所有的任务都能稳定的省95%token。但是它确实解决了AI编程中最浪费的一类任务。

终端日志很典型。

很多日志会重复路径、warning和堆栈。模型并不需要逐字读完，只需要知道哪里失败、错误类型是什么、和哪个文件有关。

JSON输出也一样。接口返回可能有几十个字段，但模型经常只需要状态、错误码、关键字段和少量上下文。

测试结果也是重灾区。跑测试时，模型真正需要的是失败用例、断言位置、异常信息和相关文件，不一定需要完整输出。

代码搜索、RAG文档片段、历史对话也是同一类问题。它们都可能很长，但不是每个字都对当前任务有价值。

这就是Headroom的价值。它不是让模型更聪明，只负责让模型少读无关材料。

压缩以后，还能把原文找回来

普通摘要有个麻烦：压掉的信息，如果后面要用，可能就没了。

这在AI编程里很危险。比如日志里某一行错误、JSON里某个字段、测试输出里的某个断言，摘要阶段一旦漏掉，后面模型就可能判断错。

Headroom的思路是可逆压缩。它会把原始内容缓存在本地，先让模型浏览压缩后的版本。如果模型后续需要细节，可以通过`headroom_retrieve`把原文取回来。

这个设计很适合Agent。Agent做任务不是读完就结束，它会不断试错、验证、回查。先看短版，需要时再翻原文，比一次性把所有内容塞进上下文更像工程系统。

本地运行，适合接到AI编码工具上

Headroom的工作原理图里，有几个点值得开发者看。

它运行在本地，官方写的是“your data stays here”。这对企业内部代码、日志和文档很重要，因为很多上下文不适合直接交给外部服务处理。

它有ContentRouter，会检测内容类型，然后选择不同压缩器。

SmartCrusher主要处理JSON，CodeCompressor主要处理代码AST，Kompress-base处理文本。CacheAligner用来稳定前缀，让模型供应商的缓存更容易命中。CCR负责把原始内容留在本地，方便后续回查。

换句话说，它会按内容类型做压缩、缓存和回取，路线比普通摘要更工程化。

Headroom官方工作原理图，内容会先经过本地压缩和路由

Codex、Cursor、Claude Code都能使用

Headroom最适合的场景，正好是很多开发者每天都在用的AI编码工作流。

你经常让Codex或Claude Code跑测试、读日志、修bug，它就有用。

你用Cursor改大型仓库，经常让模型读文件、扫引用、看输出，它也有用。

你在做RAG Agent或企业内部Agent，每次检索都会返回一堆文档片段，它更有用。

你们团队已经开始关心AI编码成本，或者发现Agent一跑长任务就很贵，这类工具就值得使用。

它不太适合轻度用户。如果你只是偶尔问几句代码，或者改一个很短的单文件脚本，Headroom可能帮不上太多。它真正发挥作用的地方，是长任务、大输出、多工具调用的Agent场景。

95%不是万能药，压缩过头也会翻车

这个工具很香，但不能神化。

日志、JSON、重复工具输出、RAG文档片段，这些内容确实适合压缩。复杂代码语义、安全审计、线上事故排查、金融和医疗类系统，就要谨慎很多。

因为有些任务依赖细节。异常堆栈里一行看似无关的内容，可能正好指向根因。JSON里某个字段看着不起眼，可能影响权限判断。代码审查里一段上下文被压掉，模型可能就看不出设计风险。

所以真正要注意的，不只是token省了多少，还要注意任务成功率、回查次数、误判成本和修复质量。

如果只是把上下文压短，但AI修错了方向，省下来的token很快会在返工里烧回来。

省token这件事，会越来越像基础设施

Headroom这个插件的出现，不只是能省token，还在提醒开发者：AI编码工具越来越像一个工程系统。以前我们优化数据库查询、缓存和接口响应，现在用AI写代码，也要优化模型看到的上下文。

Codex、Cursor、Claude Code越能干，喂给它们的东西也越多。日志、工具输出、历史对话、RAG文档、文件内容，都在变成AI编程成本的一部分。

Headroom这种工具走红，说明开发者开始意识到：AI Agent不只要会干活，还要减少浪费。

如果你已经开始觉得AI编码账单肉疼，或者Agent经常被一大堆输出淹没，Headroom可以试一试。

参考链接

https://github.com/chopratejas/headroom

——好文推荐——

智能成本归零的说法完全错误！AI教母李飞飞：在我们搞懂空间智能之前，根本不可能接近所谓的 AGI

微软Copilot Cowork重磅发布，不仅“盯上”DeepSeek，更是在解决Agent成本焦虑

被Vibe Coding坑惨了？TypeScript大神开源skill：技能描述Token成本狂降63%，AI自主判断技能调用？

喜欢(0)

Gemma 4 12B 凭借无编码器架构实现设备端多模态主动工作流

开弓没有回头箭: Fable5 封锁后 Claude 继续踩油门: 最新 Mythos 已完成训练: Sonnet 5...