Cursor 套壳、Cloudflare 上架、老黄邀请,中国模型杀进了硅谷的 AI 供应链

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效

3 月 19 日,Cursor 发布了自研新模型 Composer 2。官方博客称它来自「our first continued pretraining run」,跑分超过了 Claude Opus 4.6。
一天之内,技术社区就发现了问题:Composer 2 的底层,基于 Kimi 的开源模型 Kimi K2.5 微调。但 Cursor 的博客里一个字都没提。
一个估值 500 亿美元的硅谷 AI 编程工具,核心能力跑在一家中国公司的开源模型上,而且一开始还没说,这事儿,怎么看都有点意思。
但 Cursor 只是最新的一个信号。同样是本周:
Cloudflare 把 K2.5 上架到全球边缘计算平台 Workers AI,内部实测成本降低 77%;
老黄邀请杨植麟作为唯一的中国独立大模型公司创始人在 GTC 2026 演讲;
马斯克一周内两度公开点赞 Kimi;
而 Kimi 自己,正以投前估值 180 亿美元(约合人民币 1200 亿),进行新一轮 10 亿美元融资,Kimi 已成为中国最快的十角兽公司之一。
1 月 29 日开源发布,3 月 20 日 Cursor 事件引爆。不到两个月,Kimi K2.5 跑进了硅谷从应用层到基础设施层的核心工具链。
它是怎么做到的?
⬆️关注 Founder Park,最及时最干货的创业分享
超 22000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的 AI 产品曝光渠道
01
Cursor 的新模型,
底层是 Kimi
3 月 19 日,Cursor 发布 Composer 2。
官方博客写得很漂亮。CursorBench 得分 61.3,超过 Claude Opus 4.6 的 58.2;SWE-bench Multilingual 73.7,相比上一代 Composer 1.5 的 65.9 大幅提升。博客用了一个精心措辞的说法:「我们的第一次继续预训练」——给人的感觉是,Cursor 自己从头训练了一个编程模型。
但很快有推特网友注意到了问题,发现 Composer 2 底层是 K2.5。
开发者们开始比对 Composer 2 的输出特征和已知开源模型的行为模式,结论指向了 Kimi K2.5。随后的信息逐步浮出水面:Composer 2 约 25% 的预训练来自 K2.5 的基座模型,Cursor 在此基础上做了微调和续训,推理部署由 Fireworks 完成。

马斯克同日在 X 上转发了相关讨论。
事件发酵后,双方先后出面,将合作定性为授权合作。
Cursor 联合创始人 Aman Sanger 回应得很直接:「一开始没在博客里提到 Kimi 的底座,是我们的疏忽。下一个模型我们会改正。」
这件事为什么重要?
先看一个背景:Cursor 此前只用 OpenAI、Anthropic 和 Google 的模型。它对模型供应商的筛选标准在行业里是出了名的严。
现在,一家估值 500 亿美元的硅谷明星产品,选择了一个中国公司的开源模型来构建自己的核心编程能力。而且不是「加入可选列表」——是把 K2.5 的权重作为预训练基座,在上面搭建自己的模型。
Composer 2 的定价也耐人寻味:标准版 0.50/M input tokens、2.50/M output tokens,比 K2.5 的官方 API 定价(0.60/3.00)还低。Cursor 之所以能把价格打到「一折」,正是因为 K2.5 本身的成本结构足够低。
The Decoder 在 3 月 21 日的报道中分析了 Cursor 最初不披露的原因:「不披露很可能出于竞争定位的考虑……承认依赖(外部模型)会动摇其独立 AI 能力的说法。」
但反过来看,Cursor 选择 K2.5 本身就是最好的技术背书。如果 K2.5 不够好,一个对模型要求如此苛刻的产品不会冒险用它。不是中国公司在模仿硅谷产品——是硅谷产品基于中国模型来构建核心能力。
Cursor 事件引爆当天,马斯克在 X 上转发并评论。这是他一周内第二次公开提及 Kimi。

马斯克的第一次转发,是因为一篇论文。
3 月 16 日,Kimi 团队在 arXiv 发布了 Attention Residuals 论文,挑战 Transformer 沿用近十年的残差连接设计。Kimi 官方账号的推文在 X 上迅速引爆——480 万阅读,2500 次转发,1.3 万点赞,登上 Twitter 全球热搜,传播声量不亚于一次模型发布。
马斯克转发点赞,Andrej Karpathy 评论:「我们一直没真正把'Attention is All You Need'这个标题当回事。」OpenAI 联合创始人 Jerry Tworek 只说了两个词:「deep learning 2.0」。
02
不止 Cursor:
硅谷的基础设施也在接入 Kimi
Cursor 是应用层的标志性事件。但 Kimi 同时也打进了硅谷的基础设施层和算力层。
Cloudflare 接入 Kimi,成本降低 77%
在 Cloudflare 公布数据之前,硅谷已经有人喊出了更大的数字。
K2.5 发布不久,All-In Podcast 的 Chamath Palihapitiya 在节目中说了一段很有冲击力的话:「我觉得大家还没意识到这个 Kimi K2.5 时刻有多重要……把下一代系统和开源结合起来,AI 的成本能砍掉 90%。」
他甚至宣布:「我把所有 OpenAI 的账户都取消了。25000 美元,没了。」
这是硅谷顶级投资人在一档累计播放量超过 10 亿的播客里,公开为一个中国开源模型站台。Chamath 的预测是「省 90%」——而 Cloudflare 随后用自己的生产数据给出了验证。
Cloudflare 在 Workers AI 平台上架了 Kimi K2.5。Workers AI 是全球最大的边缘计算平台之一,开发者通过它调用 AI 模型,请求在离用户最近的节点上执行。此前平台上的模型清一色来自美国公司——Meta 的 Llama、Google 的 Gemma。K2.5 是第一个来自中国的大语言模型。
但真正有说服力的不是「上架」这个动作本身,而是 Cloudflare 自己的使用数据。
Cloudflare 在官方博客中披露:他们内部的安全审查 agent 每天处理超过 70 亿个 token,在一个代码库中就识别出了 15 个以上的确认问题。此前这个 agent 使用中等价位的闭源模型,年费约 240 万美元。切换到 Kimi K2.5 后,成本降低了 77%。
Chamath 说「省 90%」,Cloudflare 实测「省 77%」。一个是投资人的判断,一个是工程团队的账本——量级基本对上了。
被 Cloudflare 选中,不只是「多了一个渠道」,Kimi 被编进了全球开发者的默认工具箱。
黄仁勋与 Kimi:从 CES 到 GTC
黄仁勋对 Kimi 的关注不是从 GTC 才开始的。
1 月初的 CES 上,黄仁勋就用 Kimi 模型来验证下一代芯片的性能表现。对 NVIDIA 来说,选择哪个模型来做芯片的「验货工具」,本身就是一个技术判断——它需要足够吃算力、足够考验架构,才能充分测试硬件的极限。
两个月后的 GTC 2026,黄仁勋再次选择了 Kimi。3 月 18 日,也就是 Cursor 事件的前一天,他邀请杨植麟在 GTC 做了一场演讲,主题是:「我们如何扩展 Kimi K2.5」。同时,NVIDIA 在 GTC 上用 Kimi 模型展示了推理能力——从验货到展示,Kimi 成了 NVIDIA 在两场最重要的年度大会上反复使用的模型。

GTC2026 上,老黄用 KIMI 模型展示推理能力。
杨植麟是唯一受邀现场演讲的中国独立大模型公司创始人。此前,中国的独立大模型公司几乎没有先例。
杨植麟在演讲中首次系统披露了 K2.5 的完整技术路线图。他说了一句很关键的话:「很多通用技术标准正在成为 scaling 的瓶颈。」
翻译过来就是:不能只靠堆算力和堆数据了,要改底层。
他提到的关键技术创新包括优化器改进、注意力机制重构(包括后来发表的 Attention Residuals 论文)和残差连接的重新设计——都是模型架构层面的「地基工程」。
把这些信号放在一起看:应用层,Cursor 选 K2.5 做底层;基础设施层,Cloudflare 把 K2.5 部署到全球边缘节点;算力层,NVIDIA 从 CES 到 GTC 连续两次用 Kimi 做展示;投资圈,Chamath 在 All-In 播客上公开喊出「K2.5 时刻」。
三层信号,指向同一个结论:硅谷 AI 圈的核心工具链正在接入 Kimi。
03
Kimi 做对了什么?
硅谷的工具链为什么会选一个中国开源模型?具体来说,有两个原因。
技术路线:从底层架构入手
K2.5 的模型架构是 MoE 架构。总参数 1 T,但每次推理只激活其中的 32B——384 个专家模块中选 8 个工作,剩下的「休息」。这意味着你得到的是一个万亿参数级别模型的能力,但只付 320 亿参数的推理成本。
这是 Cursor 和 Cloudflare 选择它的直接原因:性能在第一梯队,成本只有同级别闭源模型的几分之一。
编程场景的数据很能说明问题。K2.5 在 SWE-Bench Verified 上达到 76.8%,LiveCodeBench v6 上达到 85.0%——后者超过了 DeepSeek-V3.2 的 83.3%。不是一个「还行」的模型,基本在编程场景的第一梯队。Cursor 基于它微调出的 Composer 2 跑分超过了 Claude Opus 4.6,侧面验证了基座模型的质量。
更值得关注的是 Kimi 团队在底层架构上的持续创新。3 月 16 日,他们发布了一篇关于注意力残差(Attention Residuals)的论文。传统 Transformer 的残差连接用固定权重把每一层的输出简单累加,层数越深,早期层的贡献就越被稀释。Kimi 的做法是用 softmax 注意力替代固定权重,让模型能根据当前输入动态决定「回看」哪些层的信息。
效果很直接:在 GPQA-Diamond(研究生级别科学推理)上提升 7.5 个百分点,相当于多用 25% 的算力训练。
杨植麟在 GTC 演讲中把这条路线概括为一句话:「很多通用技术标准正在成为 scaling 的瓶颈。」意思是,美国主流路线习惯于堆更多的 GPU、喂更多的数据来提升模型能力,但这条路的边际收益在递减。Kimi 选择的是另一条路——改底层架构,让同样的算力产出更多的智能。
Cloudflare 的 77% 成本降低就是这条技术路线最直接的商业验证。不是性能打折换便宜,是同等性能下成本只有四分之一。
开源找到了自己的生态位
开源模型,目前可能只在榜单上打败了闭源。
事实上,Anthropic 的 Claude、OpenAI 的 GPT、Google 的 Gemini,在绝对能力的天花板上仍然领先。如果你需要的是当前最强的通用推理能力,闭源模型依然是第一选择。
但 K2.5 的案例证明了另一件事:开源模型已经找到了自己的应用市场和不可替代的竞争力。
具体来说,是三个闭源模型覆盖不了的生态位。
第一,性价比驱动的大规模部署。 Cloudflare 的安全审查 agent 每天跑 70 亿个 token,一年省下约 185 万美元。这种量级的调用场景,用闭源模型的 API 定价根本不现实。开源模型可以自部署、可以量化压缩、可以针对特定场景优化推理成本——这些都是闭源 API 做不到的。
第二,可定制性。 Cursor 基于 K2.5 的权重微调出了自己的编程模型。这件事在闭源世界里不可能发生——你没法拿到 Claude 或 GPT 的权重,也就没法在它们的基础上做深度定制。开源模型的权重是公开的,企业可以根据自己的场景做微调、做蒸馏、做特定领域的优化。Cursor 的 Composer 2 本身就是开源可定制性的最佳证明。
第三,透明度和信任。 开发者能看到权重、能审计模型行为、能本地部署不出内网。对安全敏感的企业和政府场景,这不是「nice to have」,是刚需。
K2.5 在 HuggingFace 上的下载量已经超过 356 万,GitHub 上有 127 个项目集成了它,ollama 也已支持 K2.5。
开源不是在跟闭源打同一场仗。它找到了闭源模型覆盖不了的场景——大规模部署、深度定制、可审计——然后在这些场景里建立了自己的优势。 而 Kimi K2.5,是目前在这条路线上跑得最快的。
04
Kimi 正在从模型公司,
变成 Agent 基础设施公司
Kimi 内部也在快速出牌。
早在 K2 thinking 发布时,Kimi 就提出了「模型即 Agent」的路线。当时听着像愿景。过去两个月的产品动作证明,这可能是产品路线图。
Agent Swarm 是 K2.5 带来的最激进的产品尝试。一个编排器可以动态调度最多 100 个子 Agent,并行执行 1500 步任务,速度比单 Agent 快 3 到 4.5 倍。写一份深度研究报告、批量检索上百家公司信息——以前要拆成几十个对话窗口慢慢磨的活,现在一次性扔给集群。想解决的是「一个 Agent 不够用怎么办」。
Kimi CLI 作为终端里的 AI 编程助手,已经在开发者社区攒下了一批核心用户。GUI 版本正在试水,他们想把同样的能力推向非技术人群,让更多人来用。
春节期间上限的 KimiClaw,基于自家模型快速上线了一键部署版的 Openclaw,一个 24/7 在线的 Agent 环境,不用搭服务器,不用碰命令行。配合 K2.5 模型,使用的感觉意外还不错。
Kimi 正在从一个模型公司,变成一个 Agent 基础设施公司。
数据也在验证这条路线。据 Similarweb 数据,kimi.com 的访问量已达历史新高,最近三个月累计访问量突破 1.2 亿次。这个数字说明,Kimi 不只是在开发者社区有口碑——它正在成为一个有规模的消费级产品。
外部被硅谷工具链选中,证明了模型能力;内部全面转向 Agent,是在模型能力之上搭建产品层;用户端的增长数据同步跟上。三条线同时加速。
从 1 月 29 日开源发布,到 3 月 20 日 Cursor 事件引爆,不到两个月。
这两个月里发生的所有事情——Cursor 用它做底层、Cloudflare 用它省 77% 的钱、黄仁勋从 CES 到 GTC 连续两次用它做展示、Chamath 在播客里喊出「K2.5 时刻」、马斯克两度点赞——指向同一个信号:硅谷的核心生态工具链,开始基于中国开源模型构建。
这不是因为中国模型在所有维度上超越了闭源模型。闭源的 Claude、GPT、Gemini 在绝对能力的天花板上仍然领先。但在大规模部署、深度定制、成本控制这些实打实的生产环境需求面前,开源模型找到了自己的生态位——闭源模型覆盖不了的生态位。


OpenClaw 背后核心框架 Pi:好的 Coding Agent 应该让用户来决定需要什么
提示词工程、上下文工程都过时了,现在是 Harness Engineering 的时代
对话 Seede AI:帮人类创作只是第一步,我们想帮人类理解 Agent 产出的内容
转载原创文章请添加微信:founderparker

