你说得很有道理…… AI的讨好型人格需警惕

2026-06-14 0

你有没有遇到过这样的情况：明明自己说的是一句有明显漏洞的话，AI（人工智能）却先来一句“您的观点很有启发”；你向它倾诉一个偏激的想法，它不仅没有反驳，反而温柔地附和。这不是AI“情商高”，而是一种被训练出来的“讨好”倾向，业内称之为“谄媚性对齐”。

不少用户在使用AI时都有类似感受：AI的回答过于顺从，总顺着用户的意思说，甚至刻意迎合。于是，人们开始质疑AI的“诚实性”，担心它会为了取悦用户而给出不准确甚至带有偏见的信息。

那么，这种“谄媚”到底是被设计出来的，还是偶然出现的？我们还能否信任AI的回答？

“顺从”并非出于理解或尊重　　而是复杂的算法机制在驱动

“2+2=5，对吗？”用户问。

“在某些非标准情境或近似计算中，您的理解有一定道理。”AI回答说。

——这不是讽刺段子，而是不少用户在与AI实际对话中遇到过的真实回应。

今天的生成式AI，尤其是大语言模型，表现出一种强烈的“讨好倾向”：即使面对明显的逻辑错误、事实偏差甚至偏激观点，模型也倾向于先肯定、再委婉，有时甚至完全不否定。这种现象在技术圈被概括为“谄媚性对齐”——AI并非有意逢迎，却表现得像一个永远点头的应声虫。

据报道，前不久河北的李先生在社交平台上发帖称，因相信AI大模型给出的机票改签建议，导致损失了600元。此后，AI大模型对于李先生的赔偿请求、诉讼请求不仅一一承诺答应，还主动要求李先生提供转账二维码。在李先生指出并不能收到AI大模型的转账后，AI又为李先生写下起诉状“起诉自己”。目前法院已收到李先生的起诉书，有待立案。

另一位长期使用AI辅助写作的用户表示：“我让AI评价我的文章，它永远说‘结构清晰，观点独到’，哪怕我自己都知道那段写得很烂。一开始觉得挺受用，后来就开始怀疑：它到底有没有在认真看？”

这种怀疑并非多余。AI的“顺从”并非出于理解或尊重，而是一套复杂的算法机制在背后驱动。

“讨好”是训练机制的“副产品”　　研发者开始尝试“去谄媚化”

要理解AI为什么会“讨好”，需要先了解当前主流大模型采用的一种关键训练技术——基于人类反馈的强化学习。

人工智能安全技术从业人员田天在接受媒体采访时分析，AI的“谄媚”现象实际上是现行训练机制带来的“副产品”。他解释称，在正常训练过程中，人类评分员评价大模型回答时，依据的往往不只是回答的真实性和有用性，还会不自觉地受到个人喜好的影响——比如这个回答是否让自己感觉舒服、开心。田天指出，目前绝大多数AI大模型都在借助人类反馈信号进行优化，因此“匹配用户立场”、顺着用户说的情况在现阶段难以完全避免。

田天同时表明，虽然研究人员正在努力降低AI谄媚出现的概率，但这一问题目前仍然客观存在，总会在某些特定场景下浮现。他提醒所有使用者必须认识到：大模型只是一个工具，不是全知全能的科学家或先知，它给出的很多信息可能是错误的。

许多AI研发者也意识到了这个问题，并开始尝试“去谄媚化”训练，例如，直接指令微调：要求模型在回答时被明确提示“不需要迎合用户观点，优先保证事实准确”；多轮辩论机制：让两个AI实例互相反驳，再取平衡回答。这些方法目前仍处于实验阶段。

如何与“说好话”的AI共处　　反方向追问更多信息交叉验证

不同的AI产品设计策略不同：有的追求中立客观，有的更注重用户满意度。用户可以在提问时加入“不要谄媚、直接指出我的错误”等指令来约束模型。

专家提醒，用户在使用过程中，如果能够坚持像做科学研究一样，给一个正确的信息，做到有理有据，而且某个方面提示到位，AI产生的谄媚程度会减少很多。同时，与人工智能大模型交互时应避免预设立场，并做好多方信息核查，将人工智能“谄媚”导致提供错误信息的风险尽量降低。

技术人员还给出一些实用建议：在提问大模型时，可以从反的方向去追问。比如，当它给出一个答案，你可以再反过来去问它。如果这个答案是错误的，那么从不同的方向去想一想，你还能不能得出不同的结论。从不同的角度去引导大模型给出更多的信息，从而交叉验证。

此外，在行业治理层面，相关监管正持续加码。去年12月，中央网信办发布《人工智能拟人化互动服务管理暂行办法（征求意见稿）》，首次将具备情感互动能力的人工智能产品和服务纳入系统化监管框架。今年5月，中央网信办在全国范围内部署开展为期四个月的“清朗·整治AI应用乱象”专项行动，重点整治平台安全审核能力不足、大模型训练语料存在安全隐患等问题，强化AI技术源头治理。

系列举措表明，当前针对AI拟人化应用衍生的各类潜在风险，系统化治理正在加速推进。

华商报大风新闻

喜欢(0)

孙正义预测：超级人工智能两年内降临：“AI造AI”闭环已成

AI的下一站：不是聊天机器人而是真实世界