CHI-Bench 开源_75 个美国医疗长程工作流压测 30 个前沿 Agent 展示最强 Claude Code 性能
2026-05-28 0
全球首个医疗长程工作流Agent评测基准CHI-Bench发布,测试结果显示当前AI模型在临床推理与跨角色协作方面存在明显短板,最高任务通过率仅28%。
科研团队联合20余家顶级医疗机构推出CHI-Bench基准,这是首个针对医疗长程工作流的专业评测体系。该基准涵盖处方授权、医疗服务管理、护理管理三大领域75个真实任务,并构建了包含21个医疗应用软件和200+工具的高仿真测试环境。
01核心特性
首创端到端医疗操作评测框架,每个任务需经历4-6个临床阶段、60-80步操作流程。
高保真模拟环境χ-World整合21个医疗应用,内置病例状态机、跨角色审查等专业功能。
提供1,279份专业文档资源,首次在真实医疗运营规模下评估Agent能力。
采用复合验证机制,结合确定性合约与多轮LLM评估确保结果可靠性。
特别设置协作与长session压力测试,全面考察Agent在实际场景中的表现。
02χ-World 引擎:高保真医疗操作模拟环境
χ-World模拟器完整复现医疗工作流四大角色:患者、临床医生、支付方和护理管理者。该环境通过Python实现本地化部署,包含数万条临床活动记录和数百名模拟人员。
处方授权流程:涵盖保险核验、临床证据提交等5个关键应用。
利用率审查流程:包含10个专业应用,支持多级医学审查。
护理管理流程:整合5个应用,支持病历审阅、护理计划制定等功能。
环境设计重点攻克了状态转移、评审独立性等工程难点,这些在通用基准中常被忽视。
031,279 文档管理化运营手册 Skill
χ-Bench引入专业医疗运营手册作为核心评估资源,这些文档由临床专家共同编写,确保内容符合实际业务要求。
手册采用分层组织架构:顶层索引路由至三个专业角色子技能,共享医疗政策库和平台教程两个附录。这种结构首次实现了真实医疗工作流规模下的技能评估。
04任务构造与评测协议
任务设计采用三步标准化流程:
Step 1 — 案例生成:基于结构化采样反向构建完整测试用例。
Step 2 — 人工验证:标注员在实际环境中完整执行并记录标准流程。
Step 3 — 多人审核:每项任务需经临床专家和研究者双重确认。
最终筛选出的75个代表性任务平均需要21步操作,采用严格的多重验证机制确保评估质量。
05实验结果:长程医疗工作流远未被解决
5.1. 主榜:30 个 Agent 配置全景
评测涵盖30种主流配置,Claude系列表现最佳,但整体通过率仍不理想。
5.2. 可靠性问题:严苛指标下表现更差
采用pass^3标准后,所有模型通过率显著下降,暴露运行稳定性不足。
5.3. 协作测试:双Agent配合完全失败
跨角色协作场景中,所有尝试均未能完成任务,显示当前技术无法处理复杂协调需求。
5.4. 长session测试:性能急剧下滑
连续处理多个任务时,模型表现进一步恶化,通过率降至4%以下。
06失败模式:临床推理与政策合规是最大瓶颈
错误分析显示,临床判断和政策理解问题占比最高,合计近50%。
07快速上手
7.1. 环境准备
需要Python 3.12+和Docker环境,配置API密钥后即可开始测试。
7.2. 数据获取
通过指定命令下载基准数据集,运营手册需单独申请获取。
7.3. 运行测试
支持单任务测试和批量运行,提供完整复现实验结果的脚本。
08写在最后
CHI-Bench基准首次系统评估了AI在医疗长程工作流中的表现,揭示当前技术在处理复杂临床场景和政策合规方面的重大局限。这项研究为医疗AI发展提供了重要参考,提醒开发者在关键医疗应用中保持审慎态度。
喜欢(0)