AI时代,大众点评却在死磕「真人真评价」

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
3
月
23
日,大众点评发布《
2025
年评价透明度报告》。报告显示,
大众点评
升级了评价审核流程,首次引入
AI
智能体辅助人工,全年共
处置
了
2557.2
万条违规评价,
还有
1161
万条与
AIGC
生成内容有关,高强度邀评促评的商户数量下降了
42%
。
从表面看,这是一次常规治理。
但其中
首次披露的
AIGC
生成的违规评价说明,
AI
时代,
本地生活的评价体系正在面临新的变量。

相关资料还提到,点评的
AI
智能体是以
“物理世界信息”为底座,这意味着,其
AI
计算的素材来源并非
“假消息”肆意的网络,而是真实的物理世界,能够有效杜绝
AI
幻觉问题。
毕竟,
本地生活服务的核心是解决用户去哪消费、能不能消费的决策痛点,评价体系则是承载用户信任、支撑决策的核心载体
。
过去,评价的价值更多来自真实体验的积累,但在
AI
可以快速生成内容的情况下,信息本身不再稀缺,反而是哪些内容
是真人写的,哪些内容
对应真实体验变得更难判断。
一旦评论区中充斥大量结构相似、细节模糊甚至脱离实际的内容,评价作为决策依据的有效性就会被削弱,进而影响用户
消费决策
。
在这样的背景下,大众点评
对于
AIGC
评价
的治理
态度
,
以及
AI
智能体的首次引入,
更接近一次底层能力的修正。它试图解决的,是
用户在评价
内容与
消费
现实之间的
落差
。
一、
本地生活
AI
审核
的核心
是
“
校验现实
”
AI
时代之下,
大众点评
在
25
年
做了一次调整。
这一调整的核心,是引入
AI
智能体辅助人工审核,并将原有流程升级为多层结构:从黑产拦截、
AI
初筛,到人工复核、专家终审,再到争议处置,形成一套
“AI+
人工
”
的协同机制。

在这套体系中,
AI
的作用首先体现在效率上。面对每天海量生成的评价内容,
AI
可以完成第一轮快速筛查,对明显异常的文本、行为进行标记,大幅降低人工审核的压力。报告显示,
99.9%
的新增评价能够在提交后的次日完成最终研判。
但更关键的变化,并不在效率,而在审核依据。在判断方式上。
不同于理解语义的通用型
AI
智能体,大众点评的评价审核
AI
智能体,理解
平台上千万商家的线下真实信息。
这极大程度的规避了
AI
幻觉问题。
他跟普通的
AI
大模型有什么区别?
举个例子,
此前
315
晚会报道中曾提到
一款纯虚构的商品,
只要
十余篇软文,花费几十元,就可以将虚假产品信息成功
“
投喂
”
给
AI
大模型,并在几天内获得推荐,甚至名列前茅。
即便这款产品从来就是子虚乌有
。
然而,大众点评的
AI
,
关联的是物理世界
真实存在的
信息,而非互联网上真假参半的信息。
其
校验依赖一套被称为
“
物理世界信息
”
的数据底座。平台
AI
在审核
评价
时,可以同时调取商户菜单、交易记录、地理位置、用户行为等多维信息,对评论中的关键要素进行逐一比对。
例如,
有人在评论里写这家店的烤串很好吃,
大众点评
系统会去查这家店的菜单。如果这是一家火锅店,根本没有烤串,这条评论就会被标记出来。
类似的核对还有很多。比如用户是否真的到过这家店,可以通过团购核销或订单记录判断;评论发布时的位置,可以和商户位置对比;上传的照片,会和商家的菜品、环境信息做匹配。
这样一来,
消费者就不会遇到
类似
“
打开一家评分很高的店,有人夸一道菜很好吃,你翻菜单却找不到
的情况
”。
二
、保护
AI
时代
“真人
感
”
,全年治理
AIGC
评价
1161
万
如果说前面解决的是
本地生活中的核心问题
核验事实,
那
AIGC
治理解决的是另一个问题
,
如何
判断
这些评价,是不是人写的
。
这在
A
I
时代显得尤为重要,因为
“真人感”成了最稀缺的东西。
一条评价即便内容看起来合理,
但
如果是
AI
批量生成的
,就会
缺乏真实体验的细节,表达趋同,甚至只是把公开信息重新拼接了一遍。这类内容一旦规模化出现,会迅速稀释评论区的
可参考价值
。
正如大众点评公信力负责人所说:
“
点评的用户可能只发了
20
个字一张图,但这
20
个字是他真正打出来的,对你的价值可能高于无限多个低成本,只是刺激多巴胺的、没有人味的
AI
创作内容,所以大众点评将持续努力做好真人感评论区的建设。
大众点评
的《
2025
评价透明度报告》中
,
也
提到了
对于
AI
生成
评价的
逐层判断
能力
。

平台内部
AIGC
的识别逻辑,大致围绕三个维度展开。
先看文本本身。
AI
生成内容往往有明显特征,比如结构高度统一、形容词密集、缺少具体细节,或者呈现出
“
面面俱到但没有重点
”
的表达。这类内容在模型侧可以被快速筛出。
再看行为模式。比如短时间内连续发布多条评价、账号历史内容高度同质、不同商户下出现类似结构的文本,这些行为都会被标记为异常。
最后才进入最关键的一步
:
运用
AI
智能体和人工审核力量,
和现实做交叉验证。平台会把评价中的关键信息,拿去和商户的菜单、品类、交易记录、地理位置等数据逐项比对。如果文本描述和真实信息存在偏差,即便文风再自然,也会被识别出来。
对于明显脱离现实的内容,会直接屏蔽;对于存在疑点但不完全虚假的评价,可能采取折叠或降权处理;而那些基于真实体验、只是借助
AI
润色的内容,则仍然可以被保留。
这或许是
当下对于
AIGC
评价较为合适的处置态度。
也就是说,
平台并没有把
AI
当作敌人,而是试图划清一条边界:哪些内容仍然属于真实表达,哪些已经变成信息噪音。
三
、用
真实数据
来验证信息
值得注意的是
,
以上
AI
智能体来校验
物理世界
现实的
方式能成立,有一个前提
,
平台手里必须有足够多
线下商家准确
真实的数据
,而这恰恰需要本地
生活平台耗费大量资源维护。
事实是,这已经成为了大众点评守护
AI
时代
稀缺的真实的底气和护城河。
要核查一条评论,你得知道这家店的菜单、营业情况、空间结构,还要有真实的消费记录。否则,所谓对照现实就无从谈起。
资料显示,
这些信息,并不是一次性建立起来的。地推团队在补充基础数据,骑手在提供位置和履约信息,团购和到店业务在沉淀消费记录,用户上传的图片和评价也在不断补充细节。平台再把这些数据整理、校验,慢慢形成一张可以被调用的现实信息网络。

有了这张网,审核才有抓手。
这件事还在形成一个循环。数据越准确,审核就越容易;审核越有效,评价就越可信;用户更愿意留下真实内容,数据本身也会继续变多。
也正因为这样,这种能力很难一下子复制出来,它更像是一种长期积累。
同样是商户数据库,如果缺乏长期投入,很难做到覆盖和准确。一旦信息出现偏差或滞后,用户
“
踩坑
”
的概率就会上升,
AI
模型基于这些数据生成的结果,也会进一步放大误差。
在这一基础上,平台逐步形成一种自我强化的结构:数据越准确,审核越有效,评价越可信,用户参与度随之提升,反过来又进一步丰富数据。
结语
在本地生活场景中,信息的价值并不在于数量,而在于是否能够被信任。评价之所以重要,是因为它承载着用户对真实体验的判断,一旦这种对应关系被削弱,平台所提供的决策能力也会随之下降。
当评价能够持续对齐现实,用户获得的是更稳定的决策预期,而平台则在此基础上巩固自身的信任基础。从这个角度看,大众点评的调整并不只是一次审核体系的升级,更像是在强化一项长期能力
。
在不断变化的线下世界中,持续提供可被验证的信息。
在内容越来越容易生产的阶段,这种能力反而变得更加重要。

