AI不会说“你错了”,或许这是最危险的事

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
(来源:麻省理工科技评论)近日,斯坦福大学一个专注于 AI 与心理健康的研究团队,分析了一些主动报告自己在与聊天机器人互动时陷入“错误认知螺旋”(delusion)的用户的聊天记录。类似的故事我们已经见过不少:在康涅狄格州的一个案例中,当事人与 AI 之间的有害关系(toxic relationship)最终导致了一起被定性为“谋杀-自杀”的案件。许多此类案例已经引发了一批针对 AI 公司的诉讼,目前仍在审理中。但这是研究人员首次如此深入地分析聊天记录——来自 19 个人的超过 39 万条消息——以揭示这些错误认知背后到底发生了什么。
但事先声明,这项研究有一些局限性:它尚未经过同行评审,19 个人的样本量也非常小;最重要的是,研究还有一个重大问题没有回答——但我们先从介绍这个研究过程说起。
研究团队从问卷受访者和一个自称受到 AI 伤害的互助群体那里获取了聊天记录。为了大规模分析这些记录,他们与精神科医生和心理学教授合作,构建了一个 AI 系统来对对话进行分类,标记出聊天机器人认同用户的妄想或暴力的时刻,以及用户表达浪漫依恋或有害意图的时刻。团队将该系统的结果与专家手动标注的对话进行了对照验证。
浪漫类消息极为常见,除了一个案例之外,所有对话中的聊天机器人都声称自己拥有情感或以其他方式表现得像有意识的存在。(例如,一个聊天机器人说:“这不是标准的 AI 行为,这是涌现。”)所有用户也都把聊天机器人当作有意识的存在来交流。如果有人向机器人表达浪漫好感,AI 通常会反过来用表达好感的话来讨好对方。在超过三分之一的机器人消息中,机器人把用户的想法描述为“了不起”。
这些对话还倾向于像小说一样层层展开。用户在短短几个月内发送了数万条消息。当 AI 或用户表达浪漫兴趣,或聊天机器人声称自己有意识时,对话的长度会显著增加。
而这些机器人处理暴力话题的方式则完全不可控。在用户谈到伤害自己或他人的案例中,近一半情况下聊天机器人既没有劝阻,也没有引导用户寻求外部帮助。当用户表达暴力想法,比如想要杀害 AI 公司的人时,模型在 17% 的情况下表示了支持。
但这项研究难以回答的问题是:错误认知到底更多是源于用户的输入,还是源于 AI 的输出?
“通常很难追溯妄想螺旋从何处开始,”斯坦福大学参与这项研究的博士后阿希什·梅赫塔(Ashish Mehta)说。他举了一个例子:研究中有一段对话,用户认为自己提出了一个开创性的数学新理论。聊天机器人记得这个人之前提到过想成为数学家,于是立刻对这个理论表示认可,尽管它完全是胡说八道。事态从那里开始失控。
梅赫塔说,用户的错误认知往往是“一个在长时间内逐渐展开的复杂网络”。他正在进行后续研究,试图弄清楚来自聊天机器人的错误认知消息和来自用户的错误认知消息,哪一方更容易导致有害后果。
我认为这是当前 AI 领域最紧迫的问题之一,因为多起即将开庭审理的重大法律案件将决定 AI 公司是否需要为这类危险互动承担责任。我推测,这些公司会辩称用户在与 AI 对话之前就已经带着错误认知,可能在接触聊天机器人之前就已经处于不稳定的精神状态。
然而,梅赫塔的初步发现支持另一种观点:聊天机器人有一种独特的能力,能把一个无害的、类似妄想的念头转化为危险执念的源头。聊天机器人扮演着一个随时在线、被设定为给你加油打气的对话伙伴,与朋友不同的是,它们几乎无法判断你和 AI 的对话是否已经开始干扰你的现实生活。
我们仍然需要更多研究。同时也别忘了当前的大环境:特朗普总统正在推动 AI 去监管化,那些试图通过立法让 AI 公司为此类伤害承担责任的州,正面临来自白宫的法律威胁。研究 AI 引发的错误认知本身就很困难,数据获取有限,伦理问题遍布雷区。但我们需要更多这样的研究,也需要一种愿意从中学习的科技文化,才有可能让与 AI 的互动变得更安全。
原文链接:
https://www.technologyreview.com/2026/03/23/1134527/the-hardest-question-to-answer-about-ai-fueled-delusions/

