杨植麟对话罗福莉、夏立雪、张鹏、黄超:Agent已疯,中国版token经济学如何持续

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效

邮箱|yokyliu@pingwest.com
邮箱|zhouhuaxiang@pingwest.com
月之暗面的CEO杨植麟问智谱CEO张鹏:
你们最近模型怎么做的,最近怎么涨价了?
这不是什么狗血模型公司商战的情节,而是中关村论坛上刚刚结束的一场论坛里的对话。
3月27日,中关村论坛最受关注的一场圆桌论坛,月之暗面创始人杨植麟少有的没有担任分享嘉宾,而是作为主持人,和无问芯穹联合创始人兼CEO夏立雪、智谱华章CEO张鹏、小米MiMo大模型负责人罗福莉及香港大学助理教授黄超一起讨论了今天开源最重要的话题。
一些核心的信息和观察包括:
1. Token量爆发式增长带来的算力结构变革
由OpenClaw带动的算力结构变革,无问芯穹分享:从一月底开始,Token调用量每两周翻一倍,到现在已增长十倍。夏立雪形容:“上一次看到这种增长速度,还是3G时代手机流量快速普及的时候。”
2. OpenClaw拉高了中国开源模型能力的上限
罗福莉认为,OpenClaw的核心价值不仅是改变交互形态,更是把国内那些尚未完全逼近闭源模型、但已位于开源模型赛道前列的模型,上限显著拉高:让稍弱一点的模型也能达到Claude Code的水平。
3. 基础设施应该“智能体化”
夏立雪提出,未来基础设施本身也应该是一个智能体:能自我进化、自我迭代,形成自主组织。它应该有一个「CEO」是一个Agent,能根据AI客户的需求,自主迭代基础设施。
4. 杨植麟Sharp提问张鹏为何涨价?
作为主持人的杨植麟变得更Sharp。他问张鹏两个问题:GLM最新的迭代思路是什么?你们最近为什么涨价?直接切入商业和技术核心。张鹏讲道复杂任务的Token消耗是简单问答的十倍甚至百倍,涨价是回归正常商业价值的必然。
5.小米的模型是怎么做的?
杨植麟问小米怎么做模型?罗福莉虽未正面回答,但透露了技术路线:最近的 Hybrid Sparse、Linear Attention 结构:DSSA;Kimi 有 KDA,小米的下一代架构叫 Highest Bus。这是面向 Agent 时代的新探索。
6. 超长Context是模型自迭代的前提
超长Context是模型“越用越好用”的前提。但推理成本和速度是瓶颈。只有达到10M/100M Context,才能实现真正的模型自迭代:模型在复杂环境中依靠超强Context完成自我进化。
7. Harness将作为Agent的关键设计
Harness(以及Skills体系)被认为是缓解Planning错误、提升任务完成度的关键设计。从模型层面的Long Context,到Harness层面的Memory/Harness,是让特定模型支持更复杂任务的两个互补方向。
8、Agent释放了Chatbot没有发挥预训练模型的上限
原来的 Chatbot 没有把模型预训练的能力释放出来,直到 Agent 框架出现。现在通过外部工具的协调,包括任务拆解与验证机制的引入、多工具链的灵活组装、以及面向长时间任务的持续迭代闭环。模型正在从单纯的内容生成,迈向能够自主创造新事物的能力跃迁。
9、现在Skills太乱了,质量不够,需要开源社区解决
现在 Skills 确实很多,但高质量的很少。低质量 Skills 会严重影响任务完成度,还存在恶意注入等安全问题。这需要靠整个社区一起解决:如何把 Skills 发展得更好,甚至让 Agent 在执行过程中能自主进化出新的 Skills。
10、Agent原生软件交互:从UI到CLI
整个生态从UI、MCP又转到了CLI模式。未来大部分软件不一定面向人类,人类需要GUI,但软件和生态可能更多面向Agent原生去使用。
以下是圆桌对话实录:
杨植麟: 很荣幸今天能邀请到各位重磅嘉宾。大家覆盖了不同层面:从模型层,到底层算力层,再到更上层的 Agent 层。今天也非常高兴能和大家一起探讨这个话题。我们今天最核心的两个关键词,一个是“开源”,一个是“Agent”。
我们先从第一个问题开始,这个问题想请每位嘉宾都谈一谈。最近最火的无疑是 OpenClaw。大家在日常使用 OpenClaw 或类似产品时,觉得最有想象力、最让你印象深刻的地方是什么?另外,从技术角度来看,你们如何看待今天 OpenClaw 以及相关 Agent 的演进?我们先从张鹏开始。
张鹏: 好。先感谢植麟的邀请,也感谢主办方给我这个机会,和大家一起交流。其实我很早就开始玩 OpenClaw 了。那时候它还不叫 OpenClaw,最早叫 Clawdbot。我自己一直在折腾这些东西,毕竟也是程序员出身,所以对这类产品一直有比较直接的体验。

我觉得,这件事给大家带来的最大突破,或者说最大的“新鲜感”,在于它不再只是程序员或者极客的专属工具了。普通人也可以比较方便地使用顶尖模型的能力,尤其是在编程和智能体相关的能力上。
所以到现在为止,我在和大家交流时,更愿意把 OpenClaw 称作一种“脚手架”。它提供的是一种可能性:在模型能力之上,搭起了一个足够稳固、足够方便、同时又足够灵活的脚手架。大家可以按照自己的意愿,去调用底层模型提供的各种新能力。很多过去受限于“不会写代码”或“缺乏其他专业技能”而无法实现的想法,今天只需要通过很简单的交流,就有机会把它真正做出来。对我来说,这件事的冲击非常大,也让我重新认识了这类产品的意义。
夏立雪: 其实我最开始使用 OpenClaw 的时候,并不太适应。因为我已经习惯了和大模型对话式交互的方式,所以一开始会觉得它的响应有点慢。
但后来我意识到,它和过去聊天机器人最大的不同在于:它不是一个只负责“聊天”的东西,而更像是一个能够帮我完成大型任务的人。所以,当我后来开始给它布置一些更复杂的任务时,我才真正发现,它其实可以完成得很好。
这件事让我感触很深。模型从最开始按 Token 进行对话,到今天变成一个 Agent,变成一个“龙虾”,真正开始帮你完成任务,这极大拓展了我们对 AI 的想象空间。但与此同时,它对整个系统能力的要求也显著提高了。这也是为什么我一开始会觉得它“有点卡”。
作为基础设施底层的厂商,我看到的是,OpenClaw 给整个 AI 背后的大型系统和生态都带来了更多机遇和挑战。因为我们今天所有可调用的资源,想要支撑这样一个快速增长的时代,其实还是不够的。就拿我们公司来说,从一月底开始,我们的 Token 量基本上每两周就翻一倍,到现在已经增长了十倍。上一次看到这种增长速度,还是 3G 时代手机流量快速普及的时候。
所以我现在有一种很强烈的感觉:今天的 Token 用量,就像当年大家每个月只有 100MB 手机流量时的那个阶段。这就是时代变化的一个信号。在这样的背景下,我们的资源一定要被更好地优化、更好地整合,才能让每一个人——不只是 AI 行业里的人,而是整个社会中每一个鲜活的个体——都真正把 AI 能力用起来。
所以,作为基础设施领域的从业者,我对这个时代非常激动,也非常有感触。我认为这里面还有大量优化空间,但我们依然应该持续探索、持续尝试。谢谢。
罗福莉: 我自己会把 OpenClaw 看作 Agent 框架层面一个非常革命性、也非常颠覆性的事件。虽然我知道,我身边很多做深度 Coding 的人,第一选择可能仍然是 Claude Code,但我相信,只要真正用过 OpenClaw,你就会很明确地感受到,这个框架在很多设计上其实是领先的。包括最近 Claude Code 的不少更新,在我看来,某种程度上也是在向 OpenClaw 靠近。

就我自己的使用体验来说,这个框架给我带来的,更多是一种“随时随地扩展想象力”的可能。最开始,我只能在桌面端延展自己的创意;但后来我发现,OpenClaw 真正的价值在于,它让你可以在更多场景里持续推进自己的想法。
我觉得 OpenClaw 最核心的价值主要有两点。第一,它是开源的。开源非常有利于整个社区深入参与、持续改进,并且不断投入到这个框架之中。第二,像 OpenClaw、Claude Code 这样的框架,本身就是一个非常重要的前置条件。我认为,它们很大的价值在于,把国内那些还没有完全逼近闭源模型、但已经位于开源模型赛道前列的模型,上限显著拉高了。
在绝大多数场景里,我们会发现,它的任务完成度已经非常接近 Claude 最新的模型;同时,它又把下限保障得很好。因为它可以依靠一整套 harness 系统、skills 体系,以及很多初步但有效的设计,来保证任务完成度和准确率。
所以,从基座模型的角度来看,我认为这类框架一方面保证了基座大模型的下限,另一方面又拉伸了它的上限。除此之外,我觉得它给整个社区带来的另一个重要价值,是点燃了大家对于 Agent 层的想象力。大家开始意识到,在大模型之外、也就是更重要的 Agent 这一层,其实还有非常大的空间可以做。
这也是为什么最近社区里,除了研究员之外,越来越多的人开始参与到这场 AGI 变革中。也有越来越多的人,开始借助更强的框架,比如 harness、scaffold 等等,在一定程度上替代自己的工作、释放自己的时间,去做更有想象力的事情。
黄超: 我感觉,从交互模式上来看,OpenClaw 这次之所以会爆火,首先是因为它给了大家一种更强的“活人感”。我们其实做这类事情也有一两年了,但之前像 Cursor、Claude Code 这类 Agent,给人的感觉更多还是“工具感”。
而这一次,我们看到它通过 IM 软件嵌入的交互方式,让大家更容易产生一种“这是一个个人 AI”的感觉,也更接近大家想象中的 Jarvis 那样的概念。我觉得,这是它在交互模式上带来的一个非常重要的变化。
另外,它带给大家的另一个启发,是它的架构本身。像 agent loop 这样一种非常简单、但又非常高效的框架,再一次被证明是成立的。
同时,它也让我们重新思考:我们到底需要的是一个 all-in-one、非常强大的智能体,替我们做很多事;还是需要一个更轻量级、像操作系统或脚手架一样的小管家?
我觉得它带来的是另一种可能:通过一个像 OpenClaw 这样的轻量级“龙虾操作系统”生态,把整个社区真正调动起来,撬动生态里的各种工具。随着 skills、harness 这些组件越来越丰富,也会有越来越多的人开始设计更适用于 OpenClaw 这类系统的应用,并进一步赋能各行各业。
黄超: 所以我觉得,它天然就和开源生态结合得非常紧密。这两点,是它给我带来的最大启发。
杨植麟: 顺着刚才大家一直在讨论 OpenClaw,我也想接着问张鹏一个问题。我们看到最近智谱发布了新的 GLM-5-Turbo 模型。我理解,这个模型在相关能力上也做了很大的增强。能不能请你给大家介绍一下,这个新模型和其他模型相比,有哪些不同之处?另外,我们也观察到,你们最近有一个提价策略。这个策略反映了怎样的市场信号?
张鹏: 前两天我们确实紧急更新了一版。当然,这其实是我们整个发展目标中的一个阶段,只是把它提前拿出来了。
这次更新最主要的目标,还是从原来“简单对话”的能力,进一步走向“真正干活”的能力。刚才各位提到的一点我非常赞同:OpenClaw 让大家第一次明确感受到,大模型不再只是会聊天,而是真的能帮我做事。
但“干活”这件事背后,对模型能力的要求其实非常高。它需要自己进行长程任务规划,不断尝试、不断压缩上下文、不断 debug,甚至还可能涉及多模态信息处理。
所以,这对模型本身的能力要求,和传统面向对话机器人的通用模型其实是不一样的。GLM-5-Turbo 就是在这些方面做了针对性的强化。尤其像刚才提到的这种长程任务——比如让它连续工作 72 个小时,能够持续不断地自行 loop 执行——我们在这方面做了很多工作。大家刚才也提到了 Token 消耗量的问题……
前两天,我们确实紧急更新了一版模型。当然,这其实是我们整个发展目标中的一个阶段,只是把它提前拿出来了。
这次更新最主要的目标,还是让模型从原来的“简单对话”能力,进一步走向“真正干活”的能力。刚才各位提到的一点我非常赞同:OpenClaw 让大家第一次明确感受到,大模型不再只是会聊天,而是真的能够帮人做事。
但“干活”这件事背后,对模型能力的要求其实非常高。它需要自己进行长程任务规划,不断尝试、不断压缩上下文、不断调试,甚至还可能涉及多模态信息处理。所以,这对模型本身能力的要求,和传统面向对话机器人的通用模型并不完全一样。GLM-5-Turbo 就是在这些方面做了针对性的强化。尤其是刚才提到的长程任务,比如让模型连续工作 72 个小时,并且能够持续自主地 loop 执行,我们在这方面做了很多工作。
大家刚才也提到了 Token 消耗量的问题。让一个更聪明的模型去执行更复杂的任务,资源消耗其实是非常巨大的。普通用户未必能直观感受到这一点,但最终一定会体现在账单上。所以,我们也针对这方面做了一些优化,让模型在面对复杂任务时,能够以更高的效率完成执行。这是这次优化的几个重点方向。
但从本质上来说,它的模型架构仍然是一种多任务协同的通用模型架构,只是在能力侧做了更有针对性的增强。至于提价,这件事也比较容易解释。因为现在已经不是简单地问一个问题、模型给出一个回答了。它背后的思考和推理链路会变得很长,还会通过写代码的方式与底层基础设施交互,不断调试,并随时修正自己的错误。
这意味着整体消耗量会非常大。完成一个任务所需要的 Token 量,可能是回答一个简单问题时的十倍,甚至百倍。因此,价格上相应做一些调整,本质上是成本变化的自然结果。模型更大了,能力更强了,对应的服务成本也提高了,所以我们希望把它逐步拉回到一个正常的商业价值区间。
因为长期依赖低价竞争,其实并不利于整个行业的发展。这也是我们的一个重要考量。我们希望通过这样的方式,在商业化路径上形成一个更健康的闭环,持续优化模型能力,并更长期、稳定地为大家提供更好的模型和相应的 Token 服务。
杨植麟: 非常好的分享。其实现在开源模型和推理算力正在逐渐形成一个新的生态。各种各样的开源模型,可以部署在不同的推理算力平台上,为用户提供更多价值。随着 Token 量的爆发,整个行业也可能正在从训练时代逐步走向推理时代。所以我想请教一下立雪,从基础设施层面来看,这个推理时代对无问芯穹意味着什么?
夏立雪: 感谢植麟。确实,因为我们是一家诞生于 AI 时代的基础设施厂商,现在也在为 Kimi、智谱等公司提供服务,也在和 MiniMax 等团队合作,帮助大家把我们这样的“Token 工厂”更高效地用起来。同时,我们也在和很多高校、科研院所合作。
所以,我们其实一直都在思考一件事:AGI 时代所需要的基础设施,到底应该是什么样子。以及,我们应该怎样一步一步在这个过程中去实现它、推演它。对这件事,我们已经做了比较充分的准备,也看到了短期、中期和长期几个不同阶段需要解决的问题。
当前最现实、最紧迫的问题,其实就是刚才大家聊到的:像 OpenClaw 这类 Agent 产品带动了整个 Token 需求的暴增,而这种暴增对系统效率提出了更高要求。从某种意义上说,价格上涨也是在这种需求压力之下形成的一种应对方式。
我们一直以来都是从软硬件协同的角度去做布局和解决方案设计。包括我们接入了几乎所有能看到的主流计算芯片,把国内十几种芯片、几十个不同的算力集群统一连接起来。这样,我们就能够更好地解决 AI 系统中算力资源紧缺的问题。因为在资源不足的时候,最好的办法,第一是把所有可用资源都尽可能用起来;第二是让每一份算力都真正用在刀刃上,让每一份资源都发挥出最大的转化效率和价值。
所以,在当下这个阶段,我们要解决的核心问题,就是如何进一步打造一个更高效的 Token 工厂。围绕这一点,我们做了很多优化。比如,让模型与硬件、显存等各类资源实现最优适配;也在持续观察,最新的模型结构与硬件结构之间,是否还能形成更深层次的“化学反应”。
但如果只解决眼前的效率问题,其实还不够。我们现在做的,本质上还是一个标准化的 Token 工厂;可面向 Agent 时代,我们认为这远远不够。因为正如刚才大家所说,Agent 更像是一个“人”,我们可以直接把任务交给它去完成。
而我一直非常坚定地认为,当前很多云计算时代的基础设施,本质上还是为程序和人类工程师设计的,而不是为 AI 设计的。它更像是:我们先做出一套基础设施,再提供一个给人类工程师使用的接口,然后再在外面包一层,接入 Agent。这种方式,其实是在用人类操作系统的逻辑,限制 Agent 的发挥空间。
我举个例子。Agent 可以在秒级甚至毫秒级完成思考并发起任务,但我们过去很多底层 API 和系统能力,其实并没有为这种调用频率做好准备。因为对人类来说,发起一个任务通常是分钟级别的,而不是毫秒级的。所以,我们需要新的能力来适配这种变化。我们把它理解为一种面向 Agent 的基础设施,也就是要打造一个更智能化的调度引擎。这正是我们现在在做的事情。
再往更长远的未来看,当真正的 AGI 时代到来时,我们甚至认为,连基础设施本身都应该是一个智能体。也就是说,我们正在打造的这套工厂,本身也应该具备自我进化、自我迭代的能力,能够形成一个自主运转的组织。可以把它理解为:这个系统内部甚至会有一个“CEO”,而这个 CEO 本身也是一个 Agent。它会负责管理整个基础设施,并根据 AI 客户的需求,自主提出需求、迭代能力、优化系统。
只有这样,AI 与基础设施之间才能形成更好的耦合。我们也在做一些相关探索,比如让 Agent 与 Agent 之间可以更高效地通信,实现 cache-to-cache 这类能力。我们一直在思考,基础设施的发展不应该是一个割裂的过程,不应该只是“我接收一个需求,再去机械执行”,而应该不断产生更丰富的化学反应。
我认为,只有做到这一点,才真正实现了所谓的软硬协同,也真正实现了算法与基础设施的协同。这也是我一直想去完成的一件事。谢谢。
杨植麟: 接下来想问问福莉。小米最近发布了新的模型,也在持续推进开源和背后的相关技术,我觉得这对整个社区做出了很大的贡献。所以也想请你谈谈,你觉得小米在做大模型这件事上,有什么独特的优势?
罗福莉: 我想先把“小米做大模型有什么独特优势”这个问题放一放。我更想谈的,其实是中国大模型团队在做基座模型这件事上的整体优势,因为我觉得这个话题更有普遍价值。
大概从两年前开始,我就已经看到,中国的基座模型团队在这个方向上出现了非常重要的突破。这个突破在于:在有限算力,尤其是在 NVLink 互联带宽受限的情况下,我们如何突破这些硬件条件带来的限制,去做一些看起来像是在为效率妥协、但本质上却是模型结构创新的工作。比如 DeepSeek V2、V3 系列中的细粒度 MoE 和 MLA 等。后来我们看到,这类创新其实带来了一场真正的变化。
这个变化在于:当算力预算相对固定的时候,我们如何把同样一份算力所能达到的智能水平推到最高。我觉得,DeepSeek 的出现,给了国内所有基座模型团队很大的勇气和信心。虽然到了今天,我们自己的国产芯片,无论是推理芯片还是训练芯片,都已经在不断进步,但正是在此前那种受限环境下,反而逼出了我们对“更高训练效率、更低推理成本”的全新探索。
比如最近出现的 hybrid sparse、linear attention 等结构方向。包括 DeepSeek 的相关探索,Kimi 的相关方案,以及小米面向下一代模型结构所做的一些研究。它们都指向同一个问题:当我们进入 Agent 时代之后,模型结构到底应该如何进一步演化。
我为什么认为结构创新如此重要?因为刚才我们一直在讨论 OpenClaw。只要你真正用过 OpenClaw,就会发现它往往是“越用越好用,越用越聪明”。而它成立的一个前提,就是推理阶段必须拥有足够长的 context。Long context 其实已经是一个被讨论了很久的话题,但直到今天,大家才真正开始意识到:不是模型做不到百万级甚至千万级上下文,而是如果推理成本太高、速度太慢,这件事就没有现实价值。
所以,真正关键的问题是:你能不能在 100 万甚至 1000 万级 context 的情况下,把推理成本打下来,把速度提上去。只有在这种前提下,用户才会愿意把真正具有高生产力价值的任务交给模型,模型也才有机会在长上下文环境中完成更高复杂度的任务。甚至可以说,只有到了 1000 万级、上亿级上下文的阶段,我们才可能真正看到模型的自我迭代能力被释放出来。
所谓模型的自我迭代,就是它能够在一个复杂环境里,依靠超强的上下文能力,完成对自身的持续进化。这个进化既可能发生在框架层,也可能发生在模型参数层。因为在我看来,长上下文本身其实就是对参数能力的一种外延和增强。
所以,未来真正的竞争会是一个全方位的竞争:一方面,你能不能做出原生适配长上下文的模型架构;另一方面,你能不能在推理侧真正把 long-context efficiency 做出来。除此之外,还包括你能否在预训练阶段就把这类架构打牢,以及在后训练阶段,能不能把模型在真实长程任务上的稳定性和能力上限继续往上推。
我们现在也在思考,怎样构造更有效的学习算法;怎样采集在 100 万、1000 万、甚至更长上下文里,真正具有长期依赖关系的文本;以及怎样结合复杂环境,生成高质量的轨迹数据。这些,都是我们正在持续推进的事情。
但我能看到的更长期趋势是:随着大模型本身在飞速进步,再叠加 Agent 框架的加持,推理需求一定会继续迅速增长。就像刚才立雪提到的,过去一段时间里,Token 需求已经增长了接近十倍。那么今年,整个 Token 需求会不会增长到一百倍?这其实已经把竞争带到了另一个维度:不仅是模型之间的竞争,也是算力、推理芯片,甚至能源层面的竞争。
所以,如果大家继续深入思考这个问题,我相信我也会从各位身上学到更多。
杨植麟: 对,非常有 insight 的分享。下面想问一下黄超。你也开发了一些非常有影响力的 Agent 项目,包括像 nanobrowser 这样的项目,在社区里也积累了很多用户和粉丝。想请你谈谈,从技术或者应用层面来看,接下来有哪些值得重点关注的方向?
黄超: 感谢植麟。我觉得,如果把 Agent 技术抽象出来,核心大致有几个模块:planning、memory 和 tool use。
先说 planning。我觉得现在最大的问题,仍然出现在长程任务和复杂上下文上。比如一个任务可能需要 500 步,甚至更多步骤,很多模型未必能够做好规划。我认为,本质上还是因为模型不具备足够的隐性知识。尤其是在很多复杂的垂直领域,这个问题会更加突出。未来一个很重要的方向,是把已有的复杂任务知识更系统地固化到模型中。
当然,从 skills 的角度来看,包括 harness 在内的很多机制,本质上也是在缓解 planning 过程中带来的错误。因为高质量的 skill,其实就是在帮助模型完成一些本来较难的任务。这是 planning 这一部分。
再说 memory。我的感受是,memory 始终会面临一些根本性问题,比如信息压缩不准确、表达失真等。随着长程任务和复杂场景越来越多,memory 的需求也会迅速膨胀,这本身就会给整个系统带来很大压力。
但现在,包括各种“龙虾”在内,很多系统采用的 memory 方案其实都还比较简单,例如基于文件系统、Markdown 文件,或者通过共享文件的方式来管理 memory。我觉得未来的 memory 很可能会走向分层设计,同时也要想办法让它更加通用。因为说实话,当前的 memory 机制其实很难做到真正的通用。比如 coding 场景、deep research 场景、多模态场景,它们的数据模态差异都非常大。如何针对这些不同类型的 memory 做更好的检索和索引,并进一步提高效率,我觉得这会一直是一个关键方向。
另外一点是,OpenClaw 这类系统把创建 Agent 的门槛大幅降低之后,未来可能不会只有一个 Agent。比如我们已经看到,Kimi 也在尝试 Agent Swarm 这样的机制。也就是说,未来每个人可能拥有的不是一个“龙虾”,而是一群“龙虾”。
而一群 Agent 所带来的上下文规模,相比单个 Agent 会大得多。这也会进一步加大 memory 的压力。现在其实还没有一套特别成熟的机制,去管理这种多 Agent 带来的海量上下文。尤其是在复杂 coding、科研发现这类任务中,不管是对模型本身,还是对整个 Agent 架构,压力都会很大。
最后是 tool use。我觉得在这一块,现在整个 skill 生态仍然存在不少问题。MCP 当年暴露出来的一些问题,其实在今天依然存在,比如质量缺乏保障,以及潜在的安全风险。现在虽然 skill 很多,但高质量的 skill 其实仍然偏少。低质量的 skill 会显著影响 Agent 完成任务的效果;与此同时,skill 本身也可能存在恶意注入等问题。
所以在这一块,我觉得很大程度上还是需要依靠整个社区,一起把 skill 生态建设得更好。甚至进一步思考,怎样让系统在执行过程中演化出新的 skill。总的来说,我觉得无论是 planning、memory,还是 skill,都是当前一线最现实的痛点,也都是未来非常重要的演进方向。

杨植麟: 可以看到,刚才两位嘉宾其实是从不同视角讨论了同一个问题。随着任务复杂度不断提升,上下文规模也会迅速膨胀。一方面,模型层面可以继续提升原生上下文长度;另一方面,在 Agent 和 harness 层面,像刚才提到的 planning、memory 以及各类辅助机制,也能够帮助模型在既有能力边界内支撑更复杂的任务。我觉得这两个方向接下来会进一步产生化学反应,从而提升系统完成复杂任务的能力。
最后,我们做一个开放式展望。想请各位用一个词,来描述接下来 12 个月大模型发展的趋势,以及你们的期待。
黄超: 那这次先从我开始。说实话,在 AI 领域,12 个月听起来都已经很遥远了,甚至很难判断 12 个月之后会发展成什么样。但如果一定要用一个词来概括,我会选“生态”。
我觉得现在 OpenClaw 让整个社区非常活跃,这是一个很好的开始。但未来 Agent 真正重要的,不只是成为个人助手,而是要进一步转化为真正能一起工作的“打工人”,或者说 coworker。现在很多人使用它,可能更多还是出于新鲜感,或者觉得好玩。但未来,只有当这些“龙虾”真正沉淀下来,成为大家稳定的生产工具、协作伙伴,这件事才算真正跑通。
而这件事离不开生态的共同建设。开源在这里面非常重要。因为只有把相关的技术探索、模型能力、工具能力持续开放出来,整个生态才可能共同推进。无论是模型本身的迭代,还是 skills 平台的演进,或者各种工具链的完善,我觉得都需要围绕 Agent 去建立一个更好的生态。
从我自己的观察来看,未来一个很明显的问题是:软件到底还是不是主要给人用的?我觉得未必。未来很多软件可能不再以人类为中心,因为人类需要 GUI,但很多系统可能会越来越偏向 Agent-native,也就是原生面向 Agent 使用。
这样一来,人类可能只会保留那些真正让自己感到愉悦的交互,而大量真正执行性的工作,会逐渐转移给 Agent。所以我觉得,现在整个生态其实已经在发生变化:从 GUI、MCP,逐渐转向 CLI 这种模式。接下来,不管是软件系统、数据结构,还是各种技术栈,本质上都需要朝着 Agent-native 的方向重构。只有这样,整个 Agent 生态的发展才会更加丰富。
罗福莉: 我觉得,把这个问题收缩到一年的尺度非常有意义。因为如果把时间拉到五年,在我对 AGI 的理解里,很多事情几乎已经是必然会发生的了。所以,如果要用一个词来概括接下来一年里 AGI 进程中最关键的一件事,我会选“进化”。

虽然这个词听起来有一点抽象,但我最近对它有了更具体、也更务实的理解。过去一年,大家已经多次提到这件事,但直到最近,我才真正开始感受到,“自进化”这件事其实已经开始具备比较可行的实现路径。
其中一个很重要的原因在于,随着模型能力增强,我们逐渐意识到,在过去那种单纯对话式的范式下,预训练模型的上限其实并没有被真正发挥出来。而今天,这个上限正在被 Agent 框架逐步激活。
我们现在已经摸到这个边界了。尤其是当模型开始执行更长时间的任务时,我们会发现,它其实能够自己学习、自己进化。一个很简单的实验是:在现有框架上,叠加一个可验证的目标约束,再给它设置一个 loop,让它持续围绕这个目标进行迭代优化。你就会发现,模型会不断拿出更优的方案。
如果这种自进化机制可以持续运转,那么它的潜力会非常大。现在其实很多国内模型已经能够稳定跑上一到两天了。当然,这和任务难度有关。比如在一些科研任务中,模型去探索更优的结构设计,因为这类任务存在明确的评估标准,例如更低的 PPL,这就意味着它具备可验证性。在这种确定性较强的任务上,我们已经看到,模型能够自主优化并持续执行两三天。
所以从我的角度来看,自进化是一个真正可能创造新东西的方向。它不是简单地替代人类已有的生产力,而是像顶尖科学家一样,去探索世界上原本还不存在的东西。一年前,我还会觉得这个过程大概要三到五年;但到了最近,我反而觉得这个时间窗口应该缩短到一到两年。
也就是说,我们可能很快就能看到:在一个很强的自进化 Agent 框架加持下,大模型对科学研究带来至少指数级的加速。因为我最近已经很明显地观察到,我们组内做大模型研究的同学,他们的 workflow 本身就是高度不确定、又高度依赖创造力的。而在这种情况下,借助 Claude Code,再结合非常顶尖的模型,研究效率基本上已经可以提升接近十倍。
所以我非常期待这种范式未来能够辐射到更广泛的学科和领域。我觉得,这会是一件非常重要的事情。
夏立雪: 我的关键词是“可持续”。因为我看到,整个行业的发展仍处在一个长期演进的过程中,我们也希望它具备长久的生命力。从基础设施角度看,一个非常现实的问题是,资源终究是有限的,就像我们过去谈“可持续发展”时反复强调的那样。
我们现在作为一家 Token 工厂,能否持续、稳定、大规模地向外提供可用的 Token,让顶尖模型真正持续服务更多下游场景,这是我最关注的问题。因此,我们也需要把视角进一步放宽到整个生态:从最早的能源转化,到算力,再到 Token,最终转化为 GDP,形成一条可以持续进行经济化迭代的完整链路。
而且,我们不只是要把国内各种算力资源真正用起来,也在尝试把这些能力输出到海外,让全球资源能够更好地打通和整合。所以我所说的“可持续”,其实也包括把具有中国特色的 Token 经济学真正做起来。过去我们讲的是 Made in China。大家会发现,我们能够把中国具备成本优势的制造能力,转化为优质商品并输出到全球。
今天我们想做的,有点像 AI Made in China。也就是说,把中国在能源等方面的优势,通过 Token 工厂持续转化为高质量的 Token,并输出到全球,最终成为全球的 Token 工厂。这是我希望在今年看到的,中国为世界人工智能发展带来的价值。
张鹏: 我尽量简短一点。前面大家可能都在仰望星空,那我就稍微落地一些。我认为,未来 12 个月最关键的问题,可能还是算力。
因为刚才大家已经提到,不管是模型能力,还是智能体框架,确实都在显著提升创造力和生产效率,很多场景下甚至可以带来十倍级的效率提升。但前提是,大家得用得起,也用得上。不能因为算力不够,用户提了一个问题,结果模型想了半天还给不出答案,这显然是不行的。
也正因为如此,我们很多研究进展,包括很多原本想做的事情,事实上都会受到制约。前两年业界有一句话,叫“讲卡伤感情,没卡没感情”。我觉得,今天某种程度上又回到了这个阶段,只不过这一次的背景已经不一样了。
因为我们现在正在真正转向推理阶段,而之所以会转向推理阶段,是因为需求正在爆发,而且是十倍、百倍地爆发。刚才也提到,过去一段时间需求可能已经增长了十倍,但真实需求也许是一百倍,那还有大量需求没有被满足。这个问题怎么办?我想,这可能需要我们一起想办法。谢谢。
杨植麟: 好,感谢各位的精彩分享,谢谢大家。


