CHI-Bench 开源_75 个美国医疗长程工作流压测 30 个前沿 Agent 展示最强 Claude Code 性能

2026-05-28 0

全球首个医疗长程工作流Agent评测基准CHI-Bench发布，测试结果显示当前AI模型在临床推理与跨角色协作方面存在明显短板，最高任务通过率仅28%。科研团队联合20余家顶级医疗机构推出CHI-Bench基准，这是首个针对医疗长程工作流的专业评测体系。该基准涵盖处方授权、医疗服务管理、护理管理三大领域75个真实任务，并构建了包含21个医疗应用软件和200+工具的高仿真测试环境。 01核心特性首创端到端医疗操作评测框架，每个任务需经历4-6个临床阶段、60-80步操作流程。高保真模拟环境χ-World整合21个医疗应用，内置病例状态机、跨角色审查等专业功能。提供1,279份专业文档资源，首次在真实医疗运营规模下评估Agent能力。采用复合验证机制，结合确定性合约与多轮LLM评估确保结果可靠性。特别设置协作与长session压力测试，全面考察Agent在实际场景中的表现。 02χ-World 引擎：高保真医疗操作模拟环境 χ-World模拟器完整复现医疗工作流四大角色：患者、临床医生、支付方和护理管理者。该环境通过Python实现本地化部署，包含数万条临床活动记录和数百名模拟人员。处方授权流程：涵盖保险核验、临床证据提交等5个关键应用。利用率审查流程：包含10个专业应用，支持多级医学审查。护理管理流程：整合5个应用，支持病历审阅、护理计划制定等功能。环境设计重点攻克了状态转移、评审独立性等工程难点，这些在通用基准中常被忽视。 031,279 文档管理化运营手册 Skill χ-Bench引入专业医疗运营手册作为核心评估资源，这些文档由临床专家共同编写，确保内容符合实际业务要求。手册采用分层组织架构：顶层索引路由至三个专业角色子技能，共享医疗政策库和平台教程两个附录。这种结构首次实现了真实医疗工作流规模下的技能评估。 04任务构造与评测协议任务设计采用三步标准化流程： Step 1 — 案例生成：基于结构化采样反向构建完整测试用例。 Step 2 — 人工验证：标注员在实际环境中完整执行并记录标准流程。 Step 3 — 多人审核：每项任务需经临床专家和研究者双重确认。最终筛选出的75个代表性任务平均需要21步操作，采用严格的多重验证机制确保评估质量。 05实验结果：长程医疗工作流远未被解决 5.1. 主榜：30 个 Agent 配置全景评测涵盖30种主流配置，Claude系列表现最佳，但整体通过率仍不理想。 5.2. 可靠性问题：严苛指标下表现更差采用pass^3标准后，所有模型通过率显著下降，暴露运行稳定性不足。 5.3. 协作测试：双Agent配合完全失败跨角色协作场景中，所有尝试均未能完成任务，显示当前技术无法处理复杂协调需求。 5.4. 长session测试：性能急剧下滑连续处理多个任务时，模型表现进一步恶化，通过率降至4%以下。 06失败模式：临床推理与政策合规是最大瓶颈错误分析显示，临床判断和政策理解问题占比最高，合计近50%。 07快速上手 7.1. 环境准备需要Python 3.12+和Docker环境，配置API密钥后即可开始测试。 7.2. 数据获取通过指定命令下载基准数据集，运营手册需单独申请获取。 7.3. 运行测试支持单任务测试和批量运行，提供完整复现实验结果的脚本。 08写在最后 CHI-Bench基准首次系统评估了AI在医疗长程工作流中的表现，揭示当前技术在处理复杂临床场景和政策合规方面的重大局限。这项研究为医疗AI发展提供了重要参考，提醒开发者在关键医疗应用中保持审慎态度。

喜欢(0)

如何清理苹果手机系统数据：iPhone内存清理最全方案分享-干货

王者荣耀世界狂暴模式猩红神兽怎么打-狂暴模式猩红神兽打法攻略