首页
看点啥
插画图片
首页 热点时事 微软最新提出SkillOpt:用训练大模型的方法优化你的Agent Skills

微软最新提出SkillOpt:用训练大模型的方法优化你的Agent Skills

2026-06-15 0

训练大模型时,工程师绝对不会指望网络做一次前向传播就能收敛。它需要数据喂养、Batch切分、学习率控制、验证集筛选以及优化器状态的迭代试错。

但在处理Agent Skills时,当前的工程实践却极其粗糙:要么人工手写一版,要么让LLM单次生成(One-shot),或者在Agent执行失败后通过松散的自我修正(Self-revision)追加几条经验。这个过程本质上是在“写文档”,而不是在“训练能力”。

为了打破这种极其脆弱的领域适应现状,来自微软、上海交通大学、同济大学和复旦大学的研究者联合提出了SKILLOPT。该框架将深度学习优化器的严谨性引入了文本空间,通过设置Rollout批次、文本学习率和严格的保留验证门控(Held-out Selection Gate),让技能文档的迭代真正具备了可控、稳定且可复现的训练特征。

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

本文为您拆解这套系统的核心控制流,探讨它是如何用纯文本操作复现神经网络训练过程,并最终生成体积不到2000 Token却能实现全域迁移的SKILL.md的。

项目地址:https://github.com/microsoft/SkillOpt

SkillOpt的核心概念

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

SKILLOPT的核心思想是建立一个系统化的文本空间优化过程。研究者将深度学习优化中的关键变量严格映射到了自然语言处理层面。这种映射不是单纯的隐喻,而是具有实际操作指导意义的系统设计:

在这种架构下,目标模型(Target Model)及其执行框架(Harness)保持完全冻结,只负责依据当前技能文档执行任务。所有的轨迹分析、编辑提案和合并排序都由一个独立的优化器模型(Optimizer Model)在离线阶段完成。

SkillOpt系统架构与算法流程解析

SKILLOPT采用目标执行模型(Target Model)与优化器模型(Optimizer Model)分离的非对称架构。在训练阶段,目标模型负责与沙盒环境高频交互提供数据,优化器模型则在后台进行离线反思、合并与精炼,最终输出一份高度浓缩且完全自主可读的最终技能文件(best_skill.md)。

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

问题定义与数据划分

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

前向传播:Rollout证据收集

反向传播:Minibatch结构化反思

优化器模型并不直接阅读所有轨迹并输出一段新提示,而是执行结构化的处理:

分层合并与有界文本更新(学习率机制)

局部提案必须经过分层合并以消除冗余和冲突:

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

验证门控与拒绝缓冲区

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

跨周期的慢速/元更新 (Slow/Meta Update)

为了捕获长视野规律,研究者设计了隔离的宏观更新机制:

实验结果与基准测试分析

研究者在极其多样化的环境中对SKILLOPT进行了系统性评测。这包括6个基准测试(SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld);涵盖了单轮问答、高达24次调用的多轮工具循环、复杂代码生成与物理环境状态交互。系统适配了7款模型(从前沿规模的GPT-5.5到4B级别的小模型Qwen3.5-4B)以及3种执行框架(直接对话、Codex、Claude Code)。

核心提升数据

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

在52个 (模型, 基准, 框架) 的评估单元中,SKILLOPT取得了52项最优或并列最优的成绩。在直接对话、Codex和Claude Code执行环境中,SkillOpt在所有评估单元上取得最优或并列最优结果,且相对无技能基线普遍带来正向提升。

工具支持下的执行框架表现

技能作为一种适配层,必须能嵌入现代的CLI或工具沙箱中。

消融实验证明的组件必要性

通过剥离关键组件,研究者验证了系统设计的有效性:

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

高价值的工程特性:迁移性与低成本部署

对于资深工程师而言,一项技术的价值不仅在于刷榜,更在于其工程可用性与边际成本。SKILLOPT导出的文本技能件表现出了极高的通用与复用价值。

跨维度的可迁移性

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

工件分析:紧凑度与成本控制

SKILLOPT证明了高能力的边界模型(作为优化器)可以提炼出低成本推理侧能够完全利用的结晶知识。

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

最终技能通常只有数百到约两千Token,且仅由1到4次接受编辑构成;程序型任务的单位测试点训练Token成本最低。

习得技能的语义剖析

分析生成的最终规则能够发现,优化器完全放弃了对具体实例的过拟合,转而生成类似高级工程师总结的最佳实践:

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

结语

SKILLOPT最底层的优雅在于对状态读写的严格隔离。优化器侧的元记忆、慢速更新保护区以及拒绝缓冲区均在后台离线完成计算和试错,最终交付给目标模型的,仅仅是一份干净、紧凑的Markdown文件。这种计算前置的设计虽然带来了Rollout阶段的算力消耗,却硬生生将自然语言从不可控的“指令流”,约束成了可验证的“代码逻辑”。正如网络权重需要反向传播来收敛,Agent的底层适应能力也理应拥有这样一套严密的基础设施。SKILLOPT证明了,即便不触碰模型底层的safetensors文件,合理的控制流依然能压榨出极其可观的程序性性能。在SkillOpt之外,同一批研究者还发布了一篇可以称为“前置诊断篇”的SkillLens研究,感兴趣您可以看下我前天的文章

微软最新提出SkillOpt,用训练大模型的方法优化你的Agent Skills

喜欢(0)

上一篇

基于顶级 Agent Claude Code 的 Harness 工程搭建式业务 Agent 评测方案 | Bes...

基于顶级 Agent Claude Code 的 Harness 工程搭建式业务 Agent 评测方案 | Bes...

下一篇

把数据库运维这件苦差事交给 AI Agent

把数据库运维这件苦差事交给 AI Agent
猜你喜欢