OpenAI 力推 Codex:未来2周邀请好友可重置AI使用量
2026-06-13 3353254
2026-06-12 0
Anthropic近期发布了其强大网络安全模型Mythos的公开受限版本Fable,旨在平衡AI能力与安全风险。然而,该模型因其过于严苛的“防护栏”机制引发了网络安全研究人员的广泛不满。专家指出,Fable经常误判无害请求,甚至拒绝编写安全代码或阅读技术博客。这种“一刀切”的限制被认为阻碍了正常的软件工程实践,反映了AI安全边界设定的复杂挑战。
Anthropic在发布Fable模型时,初衷是希望在提供强大的网络安全辅助能力的同时,通过严苛的“防护栏”(Guardrails)来规避潜在的滥用风险。然而,这种安全策略在实际应用中却遭到了专业人士的质疑。来自IBM X-Force的知名安全研究人员Valentina “Chompie” Palmiotti指出,Fable几乎会拒绝任何与网络安全有细微关联的请求。即使是像“阅读一篇博客文章”这样完全无害的任务,只要涉及相关关键词,模型就会中断对话并弹出警告,称该消息因涉及“网络安全或生物学话题”而被拦截。
这种极端的限制不仅降低了工具的可用性,也让专业研究人员感到沮丧。对于安全专家而言,AI本应是提升效率的助手,但目前的Fable更像是一个处处设防的“禁区”,无法在正常的研究工作中发挥作用。
另一个引发争议的焦点在于模型对“安全代码”的理解偏差。网络安全资深人士Matt Suiche向媒体透露,当用户要求Fable编写符合安全标准的最佳实践代码时,模型往往会错误地将其识别为网络安全相关工作,而非软件工程的常规需求。这种逻辑导致了严重的副作用:原本旨在提升软件安全性的请求,反而因为触发了安全防护栏而被模型拒绝或降级处理。
这种情况暴露了当前AI模型在区分“恶意攻击意图”与“防御性安全编程”方面的能力不足。对于开发者来说,编写安全的代码是软件工程的基本要求,但Fable的分类逻辑似乎将所有涉及安全性的内容都划归到了受限的敏感领域,这在很大程度上限制了其在正向开发场景中的应用价值。
为了理解Fable的严苛限制,必须追溯其原型——Mythos模型。Anthropic在今年4月发布Mythos时采取了极其谨慎的态度,将其限制在名为“Project Glasswing”的项目内,仅供少数特定公司和组织使用,用于保护关键软件和基础设施。虽然上周Anthropic将Mythos的访问权限扩大到了15个国家的数百个组织,但对于广大公众而言,Fable依然是接触这一核心技术的唯一渠道。
然而,Fable在触发限制后会回退到Claude Opus 4.8的机制,进一步证明了Anthropic在处理敏感技术时的保守立场。虽然这种做法在防止恶意软件开发和生物武器威胁方面具有积极意义,但在网络安全社区看来,这种缺乏灵活性的限制方式显得过于草率,未能充分考虑到合法研究者的实际需求。
该事件凸显了AI行业在垂直领域模型发布中面临的共同困境:如何在“防止技术滥用”与“赋能专业人员”之间找到平衡点。Anthropic作为AI安全领域的领军企业,其对Fable的严苛限制反映了行业对AI可能助长网络犯罪的深度担忧。然而,如果安全限制过于死板,可能会导致专业用户流向限制较少或更加智能的其他平台,从而削弱AI在防御性安全领域的贡献。未来,如何实现更精准的意图识别,将是安全类AI模型进化的关键方向。
Fable是Mythos模型的公开且受限版本。Mythos是Anthropic专门为网络安全设计的强大模型,目前仅定向开放给特定组织;而Fable则是面向更广泛公众的版本,但内置了极其严格的安全防护栏以防止滥用。
主要原因是Fable的安全限制过于敏感且缺乏针对性。它会拒绝执行许多无害的任务,如阅读技术博客或编写防御性的安全代码,这严重阻碍了安全研究人员和软件工程师的正常工作。
当用户的输入触发了关于网络安全或生物学话题的防护栏时,Fable会暂停当前的对话,并向用户发出安全警告。随后,系统通常会降级,改由Claude Opus 4.8模型来处理后续的请求。