首页
看点啥
插画图片
首页 热点时事 CHI-Bench 开源_75 个美国医疗长程工作流压测 30 个前沿 Agent 展示最强 Claude Code 性能

CHI-Bench 开源_75 个美国医疗长程工作流压测 30 个前沿 Agent 展示最强 Claude Code 性能

2026-05-28 0

全球首个医疗长程工作流Agent评测基准CHI-Bench发布,测试结果显示当前AI模型在临床推理与跨角色协作方面存在明显短板,最高任务通过率仅28%。 科研团队联合20余家顶级医疗机构推出CHI-Bench基准,这是首个针对医疗长程工作流的专业评测体系。该基准涵盖处方授权、医疗服务管理、护理管理三大领域75个真实任务,并构建了包含21个医疗应用软件和200+工具的高仿真测试环境。 01核心特性 首创端到端医疗操作评测框架,每个任务需经历4-6个临床阶段、60-80步操作流程。 高保真模拟环境χ-World整合21个医疗应用,内置病例状态机、跨角色审查等专业功能。 提供1,279份专业文档资源,首次在真实医疗运营规模下评估Agent能力。 采用复合验证机制,结合确定性合约与多轮LLM评估确保结果可靠性。 特别设置协作与长session压力测试,全面考察Agent在实际场景中的表现。 02χ-World 引擎:高保真医疗操作模拟环境 χ-World模拟器完整复现医疗工作流四大角色:患者、临床医生、支付方和护理管理者。该环境通过Python实现本地化部署,包含数万条临床活动记录和数百名模拟人员。 处方授权流程:涵盖保险核验、临床证据提交等5个关键应用。 利用率审查流程:包含10个专业应用,支持多级医学审查。 护理管理流程:整合5个应用,支持病历审阅、护理计划制定等功能。 环境设计重点攻克了状态转移、评审独立性等工程难点,这些在通用基准中常被忽视。 031,279 文档管理化运营手册 Skill χ-Bench引入专业医疗运营手册作为核心评估资源,这些文档由临床专家共同编写,确保内容符合实际业务要求。 手册采用分层组织架构:顶层索引路由至三个专业角色子技能,共享医疗政策库和平台教程两个附录。这种结构首次实现了真实医疗工作流规模下的技能评估。 04任务构造与评测协议 任务设计采用三步标准化流程: Step 1 — 案例生成:基于结构化采样反向构建完整测试用例。 Step 2 — 人工验证:标注员在实际环境中完整执行并记录标准流程。 Step 3 — 多人审核:每项任务需经临床专家和研究者双重确认。 最终筛选出的75个代表性任务平均需要21步操作,采用严格的多重验证机制确保评估质量。 05实验结果:长程医疗工作流远未被解决 5.1. 主榜:30 个 Agent 配置全景 评测涵盖30种主流配置,Claude系列表现最佳,但整体通过率仍不理想。 5.2. 可靠性问题:严苛指标下表现更差 采用pass^3标准后,所有模型通过率显著下降,暴露运行稳定性不足。 5.3. 协作测试:双Agent配合完全失败 跨角色协作场景中,所有尝试均未能完成任务,显示当前技术无法处理复杂协调需求。 5.4. 长session测试:性能急剧下滑 连续处理多个任务时,模型表现进一步恶化,通过率降至4%以下。 06失败模式:临床推理与政策合规是最大瓶颈 错误分析显示,临床判断和政策理解问题占比最高,合计近50%。 07快速上手 7.1. 环境准备 需要Python 3.12+和Docker环境,配置API密钥后即可开始测试。 7.2. 数据获取 通过指定命令下载基准数据集,运营手册需单独申请获取。 7.3. 运行测试 支持单任务测试和批量运行,提供完整复现实验结果的脚本。 08写在最后 CHI-Bench基准首次系统评估了AI在医疗长程工作流中的表现,揭示当前技术在处理复杂临床场景和政策合规方面的重大局限。这项研究为医疗AI发展提供了重要参考,提醒开发者在关键医疗应用中保持审慎态度。
喜欢(0)

上一篇

如何清理苹果手机系统数据:iPhone内存清理最全方案分享-干货

如何清理苹果手机系统数据:iPhone内存清理最全方案分享-干货

下一篇

王者荣耀世界狂暴模式猩红神兽怎么打-狂暴模式猩红神兽打法攻略

王者荣耀世界狂暴模式猩红神兽怎么打-狂暴模式猩红神兽打法攻略
猜你喜欢