深度|对话 DeepMind 核心架构师:AlphaGo 十年复盘, 凡是能被“游戏化”的现实难题,终将被AI碾压

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效

图片来源:Google DeepMind
2016 年 3 月,首尔四季酒店。当一代传奇棋手李世石投下两枚棋子示意认输时,世界不仅见证了一场围棋比赛的终结,更目睹了一个时代的开端。
那一天,AI 第一次在被认为“最接近人类直觉”的领域,展现出了超越人类经验的可能性。
转眼十年已过,AI 的浪潮早已从最初的 AlphaGo 奔涌向重塑生物学的 AlphaFold,以及改写基础数学效率的 AlphaTensor。这场源于棋盘的“快慢思考”革命,正彻底渗透进人类文明的科学底层。本期 Google DeepMind 播客由 Hannah Fry 教授主持,邀请到了两位亲历这场变革的顶级大脑,带我们拆解 AI 如何从“模仿人类”跃迁到“创造新知”。
第一位嘉宾是 Thore Graepel,他是 Google DeepMind 的杰出研究员,也是 AlphaGo 项目的核心架构师。作为“第一个正式输给 AlphaGo 的人”,他将为我们还原直觉与计算如何在那块木制棋盘上达成完美的耦合。另一位嘉宾则是 Pushmeet Kohli,他领导着 Google DeepMind 的科学研究工作。在他看来,AlphaGo 的搜索逻辑绝非游戏消遣,而是解决蛋白质折叠和算法发现等科学“硬核”难题的关键钥匙。
在本场访谈中,嘉宾们深入浅出地拆解了6个关键逻辑:
“快思考”与“慢思考”的硅基融合:AlphaGo 的核心突破在于模拟了人类的两种思维模式。策略网络(Policy Network)提供类似人类棋手的“直觉”,在瞬息之间缩小搜索范围;而价值网络(Value Network)结合博弈树搜索进行深度推演。这种“直觉+逻辑”的架构,让 AI 能够处理围棋中高达 10^{170} 种可能性的组合空间。
第 37 手:AlphaGo 在对阵李世石时下出的那记著名的“五线肩冲”(Move 37),曾被人类解说视为失误。但这步棋证明了 AI 可以产生超越人类数千年积累的定式、完全原创的洞见。它不再是人类数据的复刻机,而是知识边界的拓荒者。
去掉人类数据反而更强:访谈中提到,一旦移除了人类棋谱,AlphaZero 通过纯粹的自我对弈不仅重新发现了人类知识,更迅速将其“抛弃”并进化出更优的算法。这向科学界揭示了一个震撼的真相:人类过去的知识储备有时反而是 AI 进化的阻碍。
将科学问题“游戏化”:Pushmeet 指出,科学本质上是在巨大空间中的一种搜索。AlphaFold 在搜索蛋白质折叠结构,AlphaTensor 在搜索矩阵乘法的最快路径。只要能为现实问题设定明确的“奖励函数”和“验证器”,AI 就能像下围棋一样解决科学难题。
AI 创新与幻觉的边界:AI 可能会产生看似荒谬的建议,但在代码或数学这种可验证领域,这些幻觉一旦通过验证器的筛选,就变成了伟大的科学突破。正如哲学家波普尔所言,科学就是不断的猜想与证伪。
人机协作的新分工:当 AI 能够给出人类无法立即理解但绝对正确的证明时,科学家的角色正在发生质变。人类的价值将不再体现在推演和计算力上,而体现在如何提出“值得解决的问题”,以及如何将 AI 的非人洞见翻译成人类可理解的科学理论。
正如播客中所言:“如果围棋可以被攻克,那么蛋白质结构、材料科学、核聚变等领域也同样可以。” 这场始于十年前的对局,最终通向的是人类对宇宙底层规律的全新掌控。
以下是全文翻译。
AlphaGo早期版本:基于人类棋谱训练的初始对弈能力
Hannah Fry:Thore,我知道你本身就是一名优秀的围棋棋手。能不能先跟我们解释一下,为什么围棋被认为对AI来说是一个绝佳的挑战?
Thore Graepel:是的,围棋之所以被认为对AI来说是绝佳的挑战是因为游戏的规则虽然非常简单,却带来了极其复杂的对弈过程。它包含了战术、策略以及复杂的棋形模式。在Deep Blue击败国际象棋世界冠军之后,国际象棋某种程度上可以说已经被“解决”了。于是,围棋就成那个悬而未决的挑战。
围棋的复杂度比国际象棋高出许多数量级。当时没人预料到它能在短期内被AI攻克。然而,对于计算机科学家来说,围棋显得相当简洁优雅。因此,在那个时候,它就成了一个最理想的攻克目标。
Hannah Fry:当时没人认为它能在短期内被攻克,这确实点中了问题的关键,对吧,Pushmeet?我知道你当时在微软工作,但当时这个问题被认为有多复杂?
Pushmeet Kohli:当时它被认为是极其复杂的。这不仅是因为search space的广度,即你在棋盘上可以落子的可能性数量之多,还因为其推理深度,你需要推理一盘棋需要推演多久,比赛本身持续多长时间。在一盘国际象棋中,你可能只需要考虑大约60到70步。而在围棋中,这个长度要长得多,而这正是其如此具有挑战性的原因。
Hannah Fry:Thore,我知道当你刚加入DeepMind的时候,作为一名围棋手,你是不是在上班第一天就和AlphaGo对弈了?
Thore Graepel:没错。你想象一下,我第一天来DeepMind上班。我认识几个人,包括David Silver(AlphaGo首席研究员)。他问我,Thore,你是围棋手,能不能帮我们个忙,测试一下我们某个项目的“婴儿”版本?当然,那时它还不叫AlphaGo。那时只是一个实习项目,他们刚从互联网上获取了几千盘棋局,训练了一个系统——或者可能是几十万盘棋局。
我有幸成为最早与它对弈的人之一。但你可以想象,我当时既兴奋又紧张。那可是我第一天上班。然后我就被拉到一张位于中央的桌子旁。对面坐着的,我记得是后来被称为“AlphaGo之手”、总是面无表情的黄士杰(Aja Huang)。然后我就要和这个“婴儿版”的AlphaGo对弈了。
Hannah Fry:当时旁边应该围着很多人吧?
Thore Graepel:对,周围围了很多人看着我。无路可逃。后来,Demis Hassabis(DeepMind CEO)也来了,当然,David全程都在。那么,你会怎么做?保守着下,所以我就想,只要不犯错就行。这应该没那么难吧。
但问题是,那正是那个版本的程序所擅长的,这种传统,保守的下法。因为它是在人类职业棋手的棋局上训练的。所以它完全知道如何应对常规下法。随着这场小型测试赛的进行,我的局面越来越糟。最后我以微弱的差距输掉了。于是我摘得了“第一个正式输给AlphaGo的人”的桂冠。那是一次相当难忘的经历。当然,在那之后,所有人都认识我了。这真是一个绝妙的自我介绍方式。
Hannah Fry:一个让人谦逊的方式。
Thore Graepel:没错,非常谦逊。
AlphaGo的技术内核:快思考与慢思考的结合,以及如何破解组合空间
Hannah Fry:确实。Pushmeet,请再帮我们回顾一下。我知道从那个还只是实习项目的早期阶段起,算法在后来已经有了相当大的进步。但从整体上讲,能不能跟我们解释一下它是如何运作的?特别是关于破解这种“组合空间(combinatorial spaces)”的理念。
Pushmeet Kohli:如果你观察围棋这个游戏,在任何一个时刻,你可以在棋盘上落子的数量是有限的。但如果你观察并推理整个对弈状态,那其数量是指数级增长的。而正是这种需要推理的状态数量的指数级增长,让这个围棋游戏变得极其复杂。那么他们是如何攻克它的呢?AlphaGo的妙处在于它融合了“快思考”和“慢思考”。从某种意义上说,AlphaGo是这两种思维方式的完美结合。正是这种结合,让它能够应对如此庞大的search space。
Thore Graepel:而且这与人类下棋的方式非常契合。如果你想象一下一个人类如何下国际象棋或围棋,我们也有能力在看棋面时,很快判断出这对黑方有利还是对白方有利。我们也会立刻看到某些看起来更有希望的落子走法。我们从不考虑所有可能的走法——国际象棋中可能有20或30种选择,围棋中则有200或300种。我们会立刻被某些走法吸引——也许是因为它们在视觉上很简洁优雅,也许是因为直觉告诉我们那是正确的选择。
而这种“直觉”思考方式与会和“规划”的想法相辅相成,也就是说,我们会明确地推理各种可能性:如果我走这步,对手可能会走那步,然后我必须用这步来应对。这两种不同的思维方式在人类下棋时结合在一起。而在AlphaGo的运作方式中,它们同样结合在一起。
Hannah Fry:也就是说,一种是直觉(intuition),一种是计算(calculation)。
Thore Graepel:正是如此。
Hannah Fry:那么,基于这一点,你们是否从思考自己如何下棋、其他棋手如何下棋中获得了灵感,某种程度上,是否也从神经科学中那方面汲取了灵感?
Thore Graepel:是的,这确实是一个重要方向。因为团队中的许多成员本身就是棋手,能够进行反思,观察我们自己是如何应对棋局的。然后,当然,这也与当时的Deep Learning的发展结合在一起。
自 2012 年以来,深度学习也迅速发展。深度学习首次为我们提供了工具来学习这些近似函数(Approximate Functions),例如,价值函数(Value Function),它能根据棋盘判断对黑方或白方优劣;或者是策略网络(Policy Network),它能根据棋盘对所有可能的落子进行排序,排序依据的是职业棋手走出该步的可能性。
Deep Learning在当时恰好成熟,可以应对这个问题,并为我们提供了实现“快思考”的机会。而“慢思考”则更像是Deep Blue所采用的方法。也就是对博弈树(Game Tree)的搜索,这种方法早已为人所知,我们现在或许可以称之为“老派”方法了。
从10比0击败欧洲冠军,到首尔挑战世界最强——AlphaGo团队在信心与未知之间走向舞台中央
Hannah Fry:好吧,我的意思是,你在很早的时候就输给了这个东西。但一旦它战胜了团队里的许多人,比如说,我知道你们用它和一位职业棋手进行了测试,因为你们邀请了樊麾(Fan Hui)来到办公室。
Thore Graepel:是的,没错。
Hannah Fry:当时你们有多大信心觉得它能打败他?
Thore Graepel:嗯,我们对此的信心各不相同,这真的很有意思。我们当时非常幸运能找到他。他当时是欧洲围棋冠军。他住在Bordeaux,我们把他邀请过来,让他和我们进行对局测试。
当时的安排是,他将与当时的AlphaGo版本进行10场测试赛。我个人认为,AlphaGo不可能已经达到能击败欧洲冠军这样职业棋手的水平。于是我和David Silver打了个赌。David很有信心。他说,AlphaGo会以10比0完胜。我说,不,AlphaGo至少会输一局。赌注是,输的人要打扮成古代日本围棋大师的样子来办公室,并且要维持一整天。结果是谁输了呢?是我,因为比赛结果确实是10比0。
但这确实给了我们信心,也给了Demis信心,让我们相信,接下来可以挑战更强的对手。
Hannah Fry:而你们确实也这么做了。在2016年,你们踏上了前往韩国首尔的飞机,去与李世石(Lee Sedol)对弈。能不能给我们讲讲,他到底有多强?
Thore Graepel:是的,李世石当时可以说是最顶尖、甚至可能是最强的棋手之一。他有着惊人的比赛战绩,赢得过无数冠军。当时人们把他比作Roger Federer,赞誉他的成就和智慧才华。所以对我们来说,他接受我们的挑战,与我们对弈,是莫大的荣幸。但同时这也是一个巨大的挑战,因为比赛日期是提前定好的,你不能说,等我们准备好了再告诉你。日期已经定下来了,那我们必须朝着那个时间节点努力,让AlphaGo变得足够强大。
更让人紧张、兴奋的是,李世石本人确信他会赢。他认为当时AlphaGo获胜的可能性微乎其微。当然,他的评估是基于他看过的与樊麾对弈的棋谱,他认为自己更强。但他当时不太清楚的是,AlphaGo通过我们进行的训练和算法改进,一直在持续进步。
基本上整个团队都去了韩国,而你根本无法想象那里的人有多兴奋。说实话,在英国,围棋是一项比较小众的活动。很少有人会下棋,甚至知道它。但在韩国,人们的热情完全不同。最顶尖的棋手就像名人一样。我们抵达时,有大批摄影师拍照。还有一个纪录片摄制组跟着我们。所以,想象一下,一群典型的计算机极客,突然间因为这场比赛成为世界瞩目的焦点。那真是一次非凡的冒险。
Hannah Fry:你们会不会担心AlphaGo的表现?
Thore Graepel:我们当然会紧张。当然,我们有一个非常完善的评估流程。你可以与你能接触到的棋手测试,比如樊麾,这非常有帮助。你也可以与程序的先前版本进行测试。你可以计算出我们称之为系统的等级分(Elo score),也就是说,根据它与不同版本对弈的结果,来评估新版本的强度。这些结果可以校准得很好。
但问题是,我们不知道李世石在这个评分尺度上处于什么位置。而且我们也希望能有一些缓冲,如果能在某些可以确定的方面比对手强一点,更有把握一些,那就太好了,因为这是世界舞台,如果输了,对声誉会是打击。所以是的,我们很紧张,我们一直工作到最后一刻,同时还要确保系统足够稳定。你不会希望在最后关头做一些微小改动来提升性能,因为这有可能导致系统不稳定。
但最终,我们对系统还是比较满意的。然后我们走进那层后来变得很有名的酒店楼层,那里是比赛现场,所有媒体都在等候,等等,然后开始了比赛。
从“误判”到历史性时刻:Move37如何揭示AI超越人类知识边界
Hannah Fry:全世界的人都在观看,包括Pushmeet。当时你在哪里?你是在通过直播观看吗?
Pushmeet Kohli:是的,我当时在Seattle。我很认真地去看了。其实是在第一局比赛进行到一半时,我才真正意识到事情的重大意义。当时已经非常明显,AlphaGo已经达到了某个特定的里程碑,你甚至可以看到媒体、评论员以及李世石本人的反应中看出来。
Hannah Fry:你说在比赛进行到中途就清楚了,这很有意思,在那局比赛的早期阶段,能看出谁占上风吗?
Pushmeet Kohli:如果只是普通观众,在早期阶段,每个人都相当确信李世石会赢。事实上,直到比赛接近尾声,在计算地盘时,人们才意识到AlphaGo已经占据优势。这让所有人都感到意外。你觉得呢?
Thore Graepel:是的,我在现场有一段有趣的经历。当时我身边坐着一位美国职业围棋棋手,我们一起观看比赛。当时棋盘的一角出现了一些着法序列,他凑过来对我说,你知道吗,我总告诉我的学生不要下AlphaGo刚才下的那种蠢棋。我当时觉得,这真是没希望了。但我不是那么专业的专家,于是我只是说,让我们等等看吧。等第一局结束后,这位先生走过来对我说,这是我经历过的最不可思议的事情。我非常感激能在这里见证一台机器能下出如此水平的围棋,我们会从中学到很多东西。他已经开始接受这个事实了。
你要知道,这些人把一生都献给了围棋。他们通常从小就开始训练,直到现在这个年纪,只为掌握这项游戏。所以,当一台机器可能匹敌甚至超越人类棋手时,这对他们来说当然是一种冲击。
Hannah Fry:如果那是AlphaGo赢的第一局,那么在第二局中,AlphaGo做了一件,真的让所有人都大吃一惊的事。
ZP注:以下为历史素材播放
[评论员]哇,这一步真是太出人意料了。
职业解说员几乎异口同声地说,没有一个人类棋手会选择Move37。而AlphaGo认为,人类棋手下出这一步棋的概率是万分之一。
ZP注:以上为历史素材播放
Hannah Fry:请向我们解释一下,如今非常著名的Move37到底发生了什么。
Thore Graepel:好的,那是一个引人注目的场景。我当时坐在国际英语解说室,我们的美国解说员Micheal Redmond面前有一块挂在墙上的大演示棋盘,他会把所有棋子放到棋盘上,向人们展示落子情况,并讲解各种变化。当他拿起代表Move37的棋子,放到棋盘上,然后他后退一步说,啊,这肯定是错了。然后他把棋子拿了下来。接着他又看了看屏幕,说,不,不,这确实是AlphaGo下的。他又把它放了回去。他当时很困惑。你能看出来,那一步对人类棋手来说是多么反直觉。
那是一个在第五线的“肩冲”。这通常是人类棋手会避免的下法。在围棋中,经常会有沿着边线的某种“推压”的局面。一方棋手沿着棋盘边缘围取实地,另一方则积累向中央发展的势力。如果这种情况发生在第三线和第四线,人们通常认为这是大致均衡的。双方都能有所得。
但AlphaGo实际上是在暗示,即使在第五线这样做,它仍然有利可图,即使让对手获得更多的实地。这就是为什么人们如此惊讶,在某些情况下这样做竟然是正确的。所以它不仅是非常特殊的一步棋,而且在某种程度上,它代表了一种权衡“眼前实地”与“中央势力”这两个因素的全新方式。
Hannah Fry:这已经超出了人类围棋棋手通常会采取的方式,
Pushmeet Kohli:是的,确实如此。确实会有这样的时刻,你能看到AI system真正的潜力,它扩展了人类的知识。在这个特定的例子里,人们多年来一直把围棋视为需要长期研究和深入理解的领域。就在这个特定的时刻上,知识的边界被拓宽了。人们起初是怀疑的,在比赛中也是如此。当这步棋被下出时,人们一度认为那是荒谬般的失误,或者是一个错误。在相当一段时间里都是这么看的,直到它的意义逐渐显现出来。
Hannah Fry:是在后续对局过程中吗?
Pushmeet Kohli:正是。
Hannah Fry:因为那一步最终被证明是第二局胜利的关键。
Pushmeet Kohli:是的。这不仅仅是那盘棋中的一个时刻,这也是整个AI历史上的一个时刻。那个特定的时刻向我们展示了,将来会有那么一些时候,这些systems会产生某些想法,而我们甚至可能无法立即判断它们究竟是正确的,还是突破性的发现。但它们依然会深刻影响我们重新审视整个研究领域的方式,让我们以全新的视角去理解它。
李世石Move78导致AlphaGo落败,围棋界关注度不降反升,AI界依然视此赛为超越人类知识的转折点
Hannah Fry:我还想谈谈Move78。这是李世石下出的一步棋,这让AlphaGo感到困惑,最终导致它认输。到那个时候,AlphaGo已经连赢三局。而现在李世石下出了一步让system困惑的棋。可以这么说吗?
ZP注:以下为历史素材播放
[评论员1]李世石这是在干什么?光是这一步他就已经思考了七八分钟了。
[评论员2]哦,快看这一步!这一步真是惊心动魄。说实话,我也不太确定AlphaGo到底想干什么。
[评论员3]所以他找到了它的弱点,就是那步“挖”棋。
[评论员4]世界冠军李世石在第四局中主动去寻找AlphaGo的弱点,而且他还真找到了。
ZP注:以上为历史素材播放
Thore Graepel:是的,完全可以这么说。Move78是李世石下出的一个不寻常的“挖”棋。当时棋盘中央正进行着一场非常激烈的战斗。李世石找到了这步棋,它和Move37一样,也出乎人们的意料。从那时起,我们观察到AlphaGo似乎不能再很好地把握局面。我们看到它后续下的棋,我们看到它之后的下法在一种不太好的意义上变得“说不通”。Move37起初可能也让我们觉得不合理。但随后的这些棋,即使对我们这样的业余爱好者来说,也显得很奇怪。可以说,它确实被这一步棋扰乱了。
让我稍微展开说一下,解释一下为什么这如此重要。你可能会说,这是一场五番棋比赛,AlphaGo已经赢了前三局。还有什么需要证明的呢?但我们当时在想,如果现在李世石赢了最后两局,你会怎么想?那就意味着他已经找到破解方法了,
Hannah Fry:他找到了system的脆弱之处。
Thore Graepel:正是。那就会成为人类的胜利。这就是为什么那一局以及最后一局对我们来说仍然非常激动人心。不过也不能说我们完全失望。我们当然失望。但同时,我们对李世石充满钦佩,作为人类,他能够找到这步棋在这场对他来说一定非常艰难的战斗中,看着机器如此完美地发挥,而他依然努力寻找着突破口。然后在第四局,他终于找到了。正如他在新闻发布会上所说,后来他提到,他感到非常开心和自豪,因为也许是最后一次,他代表人类找到了战胜机器的方式。
Hannah Fry:因为有些人称它为“神之一手”,
Thore Graepel:是的,没错。在那种紧张氛围之下,他在那一刻突破自我,找到那一步棋,这个名字确实很贴切。最终的总比分是AlphaGo以4比1获胜。那围棋界的反应如何呢?
围棋界非常密切地关注了这场比赛。当然,结果是戏剧性的,对许多人来说是意料之外的。所以人们的反应各不相同。有些人对结果感到绝对惊奇和意外。有些人无法相信。当然,也有人认为某个时代已经终结,因为现在最强的棋手可能不再是人类,而是机器。
但总的来说,我们发现令人惊讶的是,人们对围棋的关注度反而增加了。现在下围棋的人比以前更多了。围棋界真正接受了从AlphaGo中学习。现在有很多程序本质上以与AlphaGo相同的方式工作,人们将其用于教学目的,通过它来分析自己的棋局。总的来说,它为整个围棋界带来了新的动力。
Hannah Fry:那我想问问AI领域对这场比赛的反应。当时的氛围如何?大家在谈论什么?
Pushmeet Kohli:李世石对战AlphaGo的比赛是一个关键的转折点。许多人,尤其是在Machine Learning领域,一直原本将这些模型和技术视为数学和应用项目来研究的人,开始看到证据,证明这些systems可以自我学习并超越人类知识。这是一个非常重要的点,因为在Machine Learning中,你是通常用收集到的训练数据来训练模型。你自然期望模型只会与该数据分布保持一致。
而这次展示的是,system可以超越那种分布。更重要的是,这种超越所产生的洞见还能被整个世界利用。这是这段经历带来的一个惊人启示。它真正指出了AI的可能性,不仅是在围棋中,而且在理解世界、化学、生物学、数学、计算机科学等领域。未来,这些systems会发现多少类似Move37那样令人惊叹的类比和突破,并向我们展示出来呢?
从AlphaZero到AlphaFold:一场胜利如何打开科学探索的大门
Hannah Fry:你刚才提到的关于超越人类智慧的观点非常引人入胜。但在AlphaGo的故事中,即使在4比1获胜之后,我发现最有趣的一点是,你们随后构建了AlphaZero,移除了所有的人类数据,所有它训练过的围棋棋局,并发现一旦移除人类知识,它反而变得更强了。这让我感到非常震撼。
Thore Graepel:是的,从科学的角度来看,可以说这比最初的AlphaGo是更大的进步。
正如你所说,AlphaZero system无法访问任何人类棋谱、不知道人类是如何下棋的,也没有关于棋局打法的先验知识。它唯一拥有的,是游戏规则,以及我们之前提到的那些函数表示与学习方式——Policy Net和Value Net。
所以基本上,它一开始完全是随机下棋,因为它根本不知道什么是好棋或坏棋。但它通过自我对弈积累经验,学习哪些走法更可能导致胜利,哪些更可能导致失败,哪些局面看起来有希望,哪些没有希望。最终,它开始走出越来越好的棋步。现在,当然,它不再受到人类知识的限制。
它发现的东西令人惊叹。所以首先,它重新发现了人类的下法。这让人感到放心,围棋中有某些角部的定式,我们称之为“定式”,或者在国际象棋中,有某些开局走法。这个系统现在更具通用性,它可以下围棋、国际象棋和将棋,如果我们以这种方式训练,它还可以下任何其他棋盘游戏。
所以一开始,它重新发现了人类知识。我们想,哇,这太酷了,它找到了相同的开局等等。但接着我们观察到,它开始停止使用其中一些开局。我们想,这是怎么回事?原来是它找到了破解之法。
也就是说,它先是重新发现了人类知识,然后又将其抛弃,因为它已经超越了这些知识,找到了更优的下法。它不再按照人类的方式继续行棋。
Hannah Fry:也就是说,本质上是发现了人类尚未发现的东西。
Thore Graepel:没错。对于 AlphaZero 来说,当它下围棋时,最终呈现出的风格在我看来几乎是陌生的。那和我从围棋老师那里学到的围棋不一样,人类学习的围棋可能在某种程度上结构清晰,便于人类理解。它的走法看起来非常自由,但是几乎毫无逻辑可言。
但三十步之后,一切突然豁然开朗。然后你会明白,是的,哦,现在说得通了,诸如此类。就好像它拥有某种前瞻能力,在某种程度上,它确实有。从完全一无所知,到达到那样的棋力水平,这种发现过程令人震撼。
Hannah Fry:好的,我想给你们一段东西,是你们在首尔时发生的事。因为正如你之前提到的,当时有摄制组在为那部关于AlphaGo的纪录片拍摄。有一段没有剪进成片的片段。但当时摄像机正在收拾设备,麦克风还开着,所以被录了下来。我不知道你们有没有听过这段小录音。让我放给你们听。这是 Demis 和 David 的一次私下对话。
ZP注:以下为历史素材播放
[David]嗯,真是不可思议,看着一个曾被认为不可能解决的问题,这么快就变成了“已经解决”的事。
[Demis]我们可以解决蛋白质折叠问题。这太了不起了。我确信我们能做得到。我之前就觉得我们能行。
[David]是的。
[Demis]但现在我们绝对能做到了。
ZP注:以上为历史素材播放
Thore Graepel:太美了。
Hannah Fry:是不是很棒?
Thore Graepel:是的。
Hannah Fry:Thore,你觉得那段对话反映了当时的氛围吗?
Thore Graepel:是的,那就像是AlphaGo在当时打开的一扇大门。如果我们能做到这件事,那么我们还能做什么?毕竟,这是一个拥有10的170次方种不同局面的游戏。极其复杂。如果我们找到了有原则的方法来在那样的组合search space中进行有效搜寻,那么似乎也有理由相信,我们同样可以处理其他巨大的组合search space。而当时,大家最看好的领域之一就是Protein Folding。
Hannah Fry:没错。而这恰恰是你真正加入DeepMind团队的节点,因为当谈到AlphaFold时,我的意思是,你是那个故事不可或缺的一部分。AlphaGo是否直接影响了你们后来的工作?还是说,那更像是一种胜利带来的信心,让Demis说出那样的话?
Pushmeet Kohli:不,Demis从一开始就对开发AI的目的有着非常清晰的认识。他确实将AI视为一种能帮助我们更好地理解世界的工具。
事实上,在AlphaGo比赛进行的时候,我还在微软从事AI for Programming的工作。现在,AI用于编程已经无处不在。但在当时,没有多少人在研究program synthesis和AI for coding。Demis希望我加入DeepMind。我当时问他的问题是,我真正感兴趣的是利用AI systems、Machine Learning systems来解决世界上最具挑战性的难题,并理解正在发生的事情。
他的回应是:如果你想理解世界,如果你想解决世界上最重要的问题,那么你必须加入DeepMind,因为我们需要AI来真正深入地理解世界并应对这些挑战。无论你是对学习program、网络安全、气候变化,还是对那些目前无法治疗的疾病感兴趣,都必须思考:我们如何利用AI在这些领域真正带头突破。
超越围棋 ,AlphaGo的核心方法在矩阵乘法与算法发现中延续
Hannah Fry:我想问问你们在AlphaGo中所做的一些创新,以及它们最终是如何应用到你们所做的科学项目中的。AlphaGo做的一件大事是让那个巨大的search space变得更容易处理。那么从那时起,搜索算法发生了怎样的变化?它们又是如何被用于科学研究的?
Pushmeet Kohli:搜索是现实世界许多问题的核心组成部分。我们刚刚谈到了Protein Folding,它可以被视为对所有可能结构空间中的搜索。再举个更简单的例子,你也可以把搜索理解为在“算法空间”中的搜索。我们周围几乎所有计算机执行的操作,都建立在矩阵乘法之上。即使是今天正在改变世界的这些Machine Learning systems和neural networks,它们也基于矩阵乘法,本质上是将大的数字矩阵相乘。
即使是矩阵乘法最基本的操作,也就是将两个矩阵相乘,也是你在学校和大学都会学到的操作,然而,我们整个研究界还不知道,两个矩阵最快相乘的方法是什么。所以,如果你思考这个问题,你可以把它看作是一个搜索问题。你可以说存在一个“可能算法的空间”,你需要在这个空间中搜索,找到最优算法。
问题是,这个问题的search space甚至比围棋的search space还要大。因此,我们开发了一个名为AlphaTensor的agent,把矩阵乘法变成一个搜索游戏。
Hannah Fry:也就是说,不再是“你赢了还是输了一局围棋”,而是在说“你是否快速地将这两个矩阵相乘了”?
Pushmeet Kohli:是的,你是否以最少的步骤完全准确地完成了这些矩阵的乘法?这就是游戏规则。早在1969年,Strassen就提出了一种算法。从那以后的 50 年里,一直都没有进展。而AlphaTensor找到了一种更好的方法来相乘这两个矩阵。这是一个关键的证明,证明了同样的技术可以拓展到其他领域。
Hannah Fry:以防有观众可能不太熟悉你谈论的内容,比如说矩阵乘法。我们必须强调它的潜力。世界上每一个largelanguage model的核心本质上就是一个巨大的矩阵乘法问题,
如今关于芯片的讨论之所以如此火热,就是因为不同芯片执行矩阵乘法的速度不同。而你现在描述的是,是把这件事变成一个游戏。哪怕效率有微小提升,一旦规模扩大到全球范围内的AI使用量,就会带来巨大的差异。
Pushmeet Kohli:是的,完全正确。从那时起,我们进一步扩展,不仅仅研究矩阵乘法,而是探索所有可能的算法空间。所以我们新的agent,像AlphaEvolve这样的新型agent,可以在所有可能程序的空间中搜索,寻找解决重要问题的最佳算法。无论是如何在数据中心调度任务(这是一个极其重要的问题,涉及到能源、计算机利用率等),还是如何优化网络中的数据包传输,解决物流和通信问题。最初用于围棋的那套搜索方法,如今已经被扩展到更广泛的领域,并不断拓展其应用边界。
Hannah Fry:不过我现在想到的是Policy Network,也就是你所说的“直觉”。就像围棋棋手看着棋盘会说,“朝这个方向探索会很有收获”。如果你面对的不是棋盘,不是围棋,而是全世界乃至更广范围内的所有可能算法,在这种情况下,你到底该如何创造这种直觉?你怎么知道如何缩小search space?
Pushmeet Kohli:是的,所以这是一个非常有趣的研究课题,我们在把像AlphaEvolve这样的agent应用于发现新算法时,也开始认真思考这个问题。
有时这些算法对我们来说不太直观。甚至可能是违反直觉的。所以有时你能看到一些模式,能看到问题中存在着某些我们没理解的对称性,而数学家和计算机科学家此前并没有意识到。但这些对称性确实存在。但agent发现了这些对称性,并加以利用使解决方案变得更加高效。我们甚至并不完全理解它为什么能让算法变快,但它确实更快。
于是问题就来了:如果我们希望人类与AI agents协作时,我们如何确保产生的系统和算法是能够被人类计算机科学家和工程师所理解的?
Thore Graepel:这让我想起AlphaGo的一个情况。在比赛的最后阶段,人们观察AlphaGo时发现它并没有“最优”地行棋。他们很惊讶地说:“看,这一步明明更好,为什么AlphaGo没有下?它在犯错吗?而答案是,AlphaGo在优化我们给它的目标,即最大化获胜概率。
而人类倾向于使用一种启发式方法,即希望自己的地盘比对手多,而且差距越大越好这往往是对的。但AlphaGo并不在乎差距大小。对AlphaGo来说,赢半目就足够了。所以在收官阶段,它常常像是在玩弄对手,放弃一些分数,只要确保最终能赢半目就行。这些行为有时看起来违反直觉,但如果你深入探究,就能明白它们是如何产生的。
Hannah Fry:因为算法和人类最终优化的目标略有不同。
Thore Graepel:是的。
AlphaGo之后,如何区分AI真正的创新与无意义的谬误
Hannah Fry:好的,但这确实让我想到一个问题。以Move37为例,当它超越人类能力时,人们在最初却认为那是个错误。那么你如何区分其中的差别呢?我的意思是,如果算法提出了一些原创的东西,你能确定它不是在胡说八道吗?
Pushmeet Kohli:是的,这是一个非常重要的点。就像large language models,尤其是在它们最初被开发时,最初的版本会胡说八道。它们会提出不正确的解决方案或给出完全无效的回答。
而这就是agent harness发挥作用的地方,你将large language model与一个verifier结合起来,verifier能够筛选出哪些是胡说八道的,哪些是值得进一步研究的突破。
Hannah Fry:但如果这些large language models是基于人类数据训练的,会不会被限制在“人类已知事物的范围内”?好比是教科书里已经有的东西。
Pushmeet Kohli:当我们构建这些agents时,我们有意识地增加了它们需要探索的范围。所以我们告诉models,你必须走出原有的数据分布,去探索新的空间。实际上,它可能会产生不正确的结果。但我们有那个verifier和evaluation function来筛选掉那些错误的见解。
Thore Graepel:这其实很像Karl Popper(哲学家)所描述的科学过程。Conjecture and refutation是一篇著名的文章。猜想也许就是幻觉。它是是提出可能假设的能力。而反驳则是你筛选掉那些错误、无效东西的步骤。
这也解释了为什么当前AI在verifiable domains表现特别好。代码就是一个verifiable domains。你可以写测试,判断程序是否正确。首先能否编译,就是一个基本检验。然后运行测试。你有明确的失败标准。
如果没有验证机制,比如在开放性科学问题中,就会复杂得多。最终往往需要物理实验来验证。
Hannah Fry:但实验验证往往需要很长时间,不是吗?因为我在这里想到的是“interpretability”,回到你之前提出的观点。如果在高风险领域,interpretability是否更加重要?
Pushmeet Kohli:是的,确实重要。科学本质上也是交流。如果你能提出一个新发现,但无法让别人理解和在其基础上继续推进,那么能产生的影响力是有限的。所以“interpretability”扮演着非常重要的角色。
但它不是唯一影响的因素。以AlphaFold为例。AlphaFold能够解决蛋白质结构预测的问题。我们是否完全理解其内部运作?在机制层面上,是的,但我们并没有一套完整的人类推理理论来复现它的判断。我们必须把这些结果转化为人类能够理解的形式。
Thore Graepel:这里有一个非常有趣的点,即一个解释不仅要说明现象本身,还必须适应听众的认知水平。所以有时你可以在YouTube上看到这些东西,比如用六岁、八岁、十岁、十二岁孩子能懂的方式解释生命。我不得不说,我挺喜欢给十二岁孩子做的解释。而这正反映了这个事实。解释本质上是现象与理解能力之间的桥梁。
所以很可能,AI systems会会给出对它们来说过于简单的解释,但对我们来说刚刚好。
Pushmeet Kohli:是的,完全正确。比如像AlphaProof这样的agents,它们能做的事情是,你给它一个开放的数学问题,它会给出证明。而且这个证明是可验证的。
Hannah Fry:即使你不理解它,你也能判断它是否正确。
Pushmeet Kohli:是的,你可能不理解它,但你知道它是正确的。因为关于original theorem是否正确的疑虑现在已经解决了。但我们完全理解它吗?
事实上,到目前为止,对于我们所得到的结果来说,我们已经花了精力,努力把这些结果转化成数学家能够阅读和理解的形式。我可以把它翻译成自然语言,而且它完全成立。但由此产生了两个关键现象。
一是问题框架的表述变得更加重要。因为如果我们不这样做,当我们试图解决这些非常困难的数学问题时,当我们把这些问题交给agent时,挑战之一就是准确地描述问题,以便agent能够理解它需要优化的reward function是什么。然后一旦它找到解决方案,又面临将解决方案转换回人类可读形式的挑战。
Hannah Fry:不过,如果我们真到了算法能自己生成证明的那一步,自私点说,数学家在其中还有什么作用呢?
Pushmeet Kohli:不,今天的数学家反而更重要。因为这些agents能做的是解决这些不可思议的问题。但哪些问题值得解决、如何定义问题,这需要数学家和科学家。
Hannah Fry:我喜欢这个想法,也许有一天,有人会问黎曼猜想,然后它回来说:“是的,有一个证明。但证明超出了人类理解能力。”这还挺糟糕的。当然我是在开玩笑。不过,如果我们谈的是科学知识的超越,你们是否已经在科学中看到类似Move37的时刻?
Pushmeet Kohli:绝对有。仅仅矩阵乘法算法的例子,就是人们研究了很多很多年的东西,我们已经能够提出一个新的算法。所以这在算法发现领域确实是一个Move37的时刻。而且我们现在在科学的许多其他领域也看到了同样的情况,在数学、材料科学,都看到类似突破。所以有很多这样的例子。但最初的Move37仍然意义重大,因为它在某种意义上带来了“超越人类理解(going beyond human understanding)”这个概念。
Hannah Fry:我又想到了AlphaZero,以及它如何真正摆脱人类数据并取得突破。另一方面,large language models最终却成了通往intelligence的一条捷径,我想,这在很大程度上是基于人类数据的。对你来说,这算是一个出人意料的事态发展吗?
Thore Graepel:是的,这是一个有趣的转变。DeepMind基于这样一个理念:将游戏作为现实世界的缩影,让agents在环境中学习。
然后,large language models所带来的是这样一个发现:存在一条捷径,有大量的”crystallized intelligence”以数据形式存储在互联网上,先是文本数据,然后是图像、视频等等。这条捷径就是首先挖掘所有这些数据,并基于此训练systems。这基本上就是第一代和第二代large language models的基础。
但问题是,这很难带来真正的创新。处于现有人类知识这个语料库内,我们知道这些models在这方面有多强。但现在要跳出这个范围就非常困难了。我们如何超越已知的事物?这就是在过去几年里,整个学界又重新探索DeepMind早期开创的方法的原因。当然,其他方法如reinforcement learning in environments也很重要。现在的后训练阶段通常会包含各种形式的reinforcement learning,无论是基于人类生成的数据,还是基于问题或环境,比如coding environment等等。所以我们现在正处于一个试图再次超越人类知识的时期。
Hannah Fry:Pushmeet,你认为如果没有 AlphaGo,你觉得我们会来到今天的AI革命时刻吗?
Pushmeet Kohli:AlphaGo是一个转折点,它非常清楚地表明,在特定领域超越human intelligence的时刻不是科幻小说,也不是几十年后的事。而是正在发生。如果围棋可以做到,蛋白质结构、材料科学、核聚变等领域也可以。那场比赛、Move37以及那次经历留下的遗产,就是我们今天所生活的现实。
Hannah Fry:说实话,这是个结束本期节目的好点。Pushmeet,非常感谢。
Thore Graepel:太棒了。
Pushmeet Kohli:这是我的荣幸。
Hannah Fry:在人类与机器的故事中,这些重大的范式转变时刻以前也发生过。但关于国际象棋,它始终只是一个计算问题。机器能用蛮力取胜吗?AlphaGo不同。这是机器第一次展示出更深层的东西,一种将直觉与计算结合起来的真正intelligence,并将我们带到了超越人类能力的境地。十年过去,领域发展飞速。但当时困扰研究者的许多问题,在如今比以往任何时候都更具现实意义。你如何创造出能够超越人类知识、产生新洞见的AI systems?你如何将真正的新见解与错误的信息区分开来?您正在收听的是Google DeepMind播客,我是 Hannah Fry,我们下次再见
原视频:10 years of AlphaGo:The turning point for AI | Thore Graepel & Pushmeet Kohli
https://www.youtube.com/watch?v=qoinGjj60Fo
编译:Qi Tu

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。



