苏黎世联邦理工学院新研究:AI 已能大规模识别匿名用户真实身份

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
IT之家
3 月 7 日消息,长期以来,互联网用户可以通过匿名或化名账户表达观点,从而避免被人肉搜索或遭到骚扰。但随着 AI 能力迅速提升,这种匿名保护正在变得越来越脆弱。
据外媒 Futurism 今日报道,苏黎世联邦理工学院与 Anthropic 研究人员在一篇尚未经过同行评议的论文中指出,大语言模型已经具备
大规模识别匿名用户真实身份
的能力。

研究团队在实验中开发了一种 AI 智能体,只依靠用户在论坛上的发言和个人资料,就能识别 Hacker News 和 Reddit 用户的真实身份。研究人员指出,这类调查如果由人类完成
通常需要数小时
。
实验结果令人震惊:AI 成功识别了约三分之二用户。
论文作者之一、苏黎世联邦理工学院 AI 工程师西蒙 · 勒尔门写道:“我们的研究表明,过去保护匿名用户的‘现实中的模糊性’已经不再存在,网络隐私的威胁模型需要重新思考。”
研究团队还发现,这种方法不仅能应用在论坛数据上,在 LinkedIn 资料、匿名采访记录等不同数据来源之间同样有效,而且可以
扩展到数万名候选对象
。
过去用户普遍认为,只要使用匿名账户,别人要识别身份就需要付出极高成本。但大模型已经改变了这一前提。IT之家获悉,研究人员先把 Hacker News 帖子与 LinkedIn 账号建立对应关系,然后删除所有身份信息,使数据集匿名化。随后用这些数据训练模型,并要求模型找出帖子对应的真实作者。
勒尔门解释:“这些智能体能够做到以前非常困难的事情。只凭匿名采访记录等自由文本,就可以逐步推断出一个人的完整身份。”
研究团队在研究过程中也
刻意避免真正揭露匿名用户身份
,因此设计了专门的机制,用来评估模型能力。
结果显示,哪怕是 Anthropic 关于日常 AI 使用情况的调查问卷这类普通内容,AI 模型仍然能在
约 7% 的情况下识别出具体人员
。研究人员指出,AI 能够做到这一点本身已经非常值得警惕。
在另一个实验中,当 AI 分析 Reddit 电影社区的评论时,
识别用户身份的准确率甚至更高
。用户讨论电影越多,AI 就越容易锁定其身份。
研究团队同时也承认研究存在一些限制,例如样本规模较小,以及难以区分模型本身与搜索引擎在识别过程中的作用。
尽管如此,研究人员认为这一结果仍然揭示了一个令人担忧的趋势:大语言模型正在
让去匿名化变得更加普遍
。
研究人员总结认为,AI 时代正在改变互联网的隐私格局。如果没有更强的保护措施,网络匿名可能面临终结。论文最后指出:“用户、平台和政策制定者必须意识到,支撑当今互联网的隐私假设已经不再成立。”
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

