三大模态模型全部登顶后，昆仑万维正式披露了 2026 年 AGI 战略

来源：Founder Park原文链接

专属客服号

微信订阅号

大数据治理

全面提升数据价值

赋能业务提质增效

　　藏在三大 SOTA 模型背后的，是超级 AIGC 创作生态。

在中国的 AI 版图里，昆仑万维及其旗下的天工 AI，一直是一家很难被简单定义的公司。

它不是 BAT，不是字节跳动，甚至不是科技媒体最热衷追逐的那类动辄发布在 XX 领域「杀疯了」的黑马选手。

但无论是曾经打得满场开花的业务版图，还是在游戏、出海等领域的独特地位，又注定了它的一举一动，会成为横跨科技、财经、互联网多个领域的新闻头条。

于是，我们看到，在 2026 年，这家公司开始频繁站上世界 AI 舞台的中心。

3 月 18 日，昆仑万维的视频大模型 SkyReels V4 登顶了全球权威评测平台 Artificial Analysis 的「文生视频（含音频）」第一位置，刷新了 Google Veo 3.1 在内一众海内外视频大模型的 SOTA 表现。

几天后的 3 月 27 日，北京中关村创新中心 150 人的会场的 G08 厅，国家级科技创新平台中关村论坛期间，天工 AI 董事长兼 CEO 周亚辉站在聚光灯下，首次向到场的政府官员、学界专家、产业嘉宾、媒体记者，系统阐述了这家公司从 2022 年正式 all in AGI 与 AIGC 之后的最新 AGI 规划：昆仑万维 2026 年的 AGI 战略升级为「3+1」生态架构—以 4 个 SOTA 大模型为底座，支撑中层3 大 AI 原生平台+顶层1 个超级智能体。届时，三层合力，将人人都能充分释放创造力，而大模型也将从工具时代进化到 AI Native平台经济体时代。

这不是他第一次站在这样的聚光灯下。2015 年，昆仑万维登陆 A 股时，他是互联网圈最年轻的成功创业者，抓住了一轮又一轮时代机会。在投资圈，他曾 1 亿元投资映客、押注中国 RoboTaxi 一哥 Pony.ai、领投了 Musicly 最后一轮，涉猎之广、眼光之准，长期被圈内称道。

十年后，他选择带领这家公司走了一条很长远的路——慢下来，扎下去。

⬆️关注 Founder Park，最及时最干货的创业分享

超 22000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的 AI 产品曝光渠道

01 All in AGI 与 AIGC 四年后，

昆仑万维有什么新打法

2022 年就已经 All in AGI 与 AIGC，时至今日，已经过去四年时间，昆仑万维究竟是如何 All in 的？又究竟交出了怎样的答卷？

答案就藏在谜面上，中关村论坛期间，昆仑万维举办的专场发布会名称「世界模型前沿技术与天工AIGC全家桶大模型生态」回答了一切。

围绕这个主题，背后所支撑的，则是昆仑万维最新发布的「3+1生态架构」。

具体来说，在昆仑万维的规划中，整个平台由三层构成，底层是四大 SOTA 大模型，上层是三个 AI 原生平台经济体，顶层是一个 Super Agent 操作系统。

其中，四大 SOTA 大模型分别指的是：

Matrix-Game 3.0——游戏世界模型；解决了世界模型长时序生成的记忆能力，保证不同时刻在同一位置生成内容具有一致性，并大幅提升了模型参数和分辨率大小，在 5B 模型 720P 分辨率下依然具有 40FPS 的实时生成效果。
SkyReels V4——视频生成大模型。2026 年 3 月 19 日，登上 Artificial Analysis 文生视频（含音频）赛道榜首，超越 Google Veo 3.1、OpenAI Sora 2；是一款集全模态音视频联合生成、修复与编辑于一体的大一统基础模型。
Mureka V9——音乐大模型。依托自研 MusiCoT 技术链等技术，在段落内文本控制、生成效率、混音质量与整体听感等多个关键维度持续进化，使 AI 音乐从能生成一首歌，进化为能稳定地按创作意图完成一首好歌。
Skywork6.0——一款即将发布面向全自研 OpenClaw 架构打造的 Agent 原生大模型。

建立在四大 SOTA 大模型基础上的，则是三大 AI 原生平台，包括月活跃用户 8000 万、覆盖 170 多个国家，三万多部剧集的「AI 版奈飞」DramaWave；主打 AI 版 Spotify 的 Mureka 音乐平台；以及可以口述玩游戏、口述 diy 游戏的 AI 版的 Roblox 猫森学园 2.0。

而在最顶层，「3+1」的「1」，则是 Skywork super Agent，是三大平台背后通用的操作系统，长远来看，它也是昆仑万维面向全球所有内容创作者推出的一人公司的操作系统。借助 AI Native 架构，Skywork super Agent 具备记忆规划、执行、协同的完整能力闭环。此外，借助自研的 Sky claw 架构，Skywork super Agent 把 Skills 和工具编排深度整合，实现了多 Agent 的协同调度，最终能做到一句话出成品，能够帮助做内容的创作者，出 PPT，做内容发布，做海报，做涨粉，做变现。

战略披露了，但面向全球五亿内容创作者提供多模态创作服务，并不是一件简单的事情，昆仑万维的技术，真的足够成熟了吗？

在中关村论坛期间，昆仑万维首席科学家、中国香港中文大学教授成宇，用了一小时的时间，详细拆解了最新游戏模型 Matrix-Game 3.0、视频模型 SkyReels V4、音乐模型 Mureka V9 及其背后的黑科技。

02 游戏模型：

一片超级蓝海

要理解昆仑万维的多模态野心，其游戏模型 Matrix-Game3.0（https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3）或许是一个最佳的切入点。

事实上，如果只看其使用场景，我们很容易被 Matrix-Game 的名字所迷惑，其实 Matrix-Game 本质上是一系列物理仿真驱动下的实时交互式世界模型。

而相当长一段时间里，实时交互式世界模型都被行业公认为是多模态模型发展道路上的终极目标。

但这条路，布满了荆棘。当前的可交互世界模型，普遍面临三大核心痛点：记忆性差，同一位置在不同时间生成的内容往往自相矛盾，上一秒还在的建筑，下一刻就凭空消失；泛化能力弱，换一个场景、换一种光照，模型就直接失灵；实时交互不足，生成速度跟不上用户的操作，玩家走一步要等几秒加载，根本谈不上沉浸式体验。

在实时生成基础上，Matrix-Game 3.0 大幅提升了模型记忆、场景泛化与生成质量，从可运行的交互 Demo，走向具备稳定性与工业级性能的世界模型系统，成为面向 720p 实时长时序生成与交互世界建模的新一代系统架构。

可以看到，在这个半分钟的 AI 生成视频中，无论玩家视角如何变化，所有景物的光线、颜色、外形、透视关系等等都保持了高度一致。

而这种进阶，则来自三个维度的底层技术突破。

第一个是面向世界模型训练的工业级的无限数据引擎。昆仑万维构建了一套基于 Unreal Engine 5 的合成数据生成系统 Unreal-Gen，能够稳定输出高质量的 Video + Pose + Action 数据。在此基础上，通过结合 NavMesh 与强化学习的自主探索 Agent，实现了复杂场景下的高效数据覆盖，再通过 Tick 级同步机制，实现了视觉、位姿与动作的毫秒级对齐。工程层面则实现了完整的云端自动化流程，从场景加载、智能探索、数据采集到上传存储全流程无需人工参与。

更重要的是，Matrix-Game 3.0 还打通了 GTA5、荒野大镖客 2、赛博朋克 2077 等多款 3A 游戏，构建了跨游戏的自动化数据采集体系，为模型训练提供了海量、高质量的交互式视频数据。

第二个，也是最核心的创新，则是长时序抗漂移机制。团队在基础模型训练阶段，引入了 Error Buffer 机制：显式建模生成结果与真实之间的误差，并将其作为额外条件重新注入模型。同时，通过一个统一的 DiT 框架，将长期记忆、局部历史帧以及当前预测目标进行联合建模，从而在保证生成连续性的同时，实现跨时间的信息利用。

第三个是突破极限的实时推理能力。通过推理优化加速，小步采样并进行 KV Cache 这样的缓存机制，在 decoder 端又进行蒸馏和操作，Matrix-Game 3.0 的 5B 参数模型在 720P 分辨率下，生成速度最高可达 40FPS，这个数字意味着，用户的每一次操作，都能得到实时的画面反馈，真正实现了边生成边游戏的全新范式。

而 28B 的大模型，则通过第一人称与第三人称分别训练独立高噪声模型、共享统一低噪声模型的设计，既保证了不同视角下的沉浸式体验，又实现了高效的资源分配，在动态性和泛化性上，都做到了行业顶尖水平。

借助这一套高质量的交互体验，完整的记忆，以及高效的实时推理，在 Matrix-Game 3.0 的框架下，AI 不再只是生成静态场景或预设动画，它能够构建一个具有记忆和推理能力的动态游戏世界，玩家与世界的每一次交互都会被系统记录并影响后续生成内容。

而这种无剧本的游戏体验，正是行业公认的 AI 游戏的终极形态。

03 视频之战：

在最激烈的战场，建立根据地

如果说 Matrix-Game3.0 的突围是在蓝海市场指明了行业发展的方向，SkyReels V4登顶，则是在全球 AI 竞争最激烈的主战场上，打赢了一场硬碰硬的战役。

2026 年 3 月 18 日，全球权威评测平台 Artificial Analysis Arena 更新视频生成基准测试排名。在「Text to Video (With Audio)」和 Image to Video (With Audio) 赛道上，SkyReels V4 赫然登顶，在 Text to Video (No Audio) 赛道，位列全球第一梯队。

而环顾四周，AI 视频生成赛道，聚集了全球最顶级的玩家——OpenAI Sora、Google Veo、快手 Kling……每一个名字背后，都是海量的算力、数据与技术积累。

在一个成熟赛道中，与巨头掰手腕，并不是一件容易的事情。

但这条赛道，也有着行业公认的四大顽疾：音画分离导致的同步失衡，口型对不上台词、动作配不上音效，是几乎所有模型的通病；多模态参考下的控制失效，用户想精准控制角色动作、场景变化、镜头语言，往往事与愿违；内容生成缺乏叙事逻辑与物理常识，画面流畅却毫无故事性，物体悬浮、角色穿模屡见不鲜；创作与编辑工具碎片化，商用落地遥遥无期。

行业里的绝大多数解决方案，都是在原有架构上修修补补：音画不同步，就优化后期配音的匹配算法；可控性差，就增加更多参考维度；逻辑混乱，就用更多标注数据去修正。

但昆仑万维选了一条最难的路：从底层架构，重构整个视频生成的逻辑。

SkyReels V4 是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频生成模型。

它的核心底座，是自研的音画一体双流架构。不同于业界先生成画面，再匹配音频的传统路径，SkyReels V4 采用双分支设计，视频与音频分支共享同一个 MLLM 文本编码器，从生成的起点，就实现了多模态语义的深度融合。

其中，初始层用自研双流 MMDiT（Multimodal Diffusion Transformer）结构保障音画模态的精准对齐，后续层切换为单流结构提升计算效率，视频分支通过额外文本交叉注意力强化语义控制，双分支间通过双向交叉注意力实现时序同步，再用 RoPE 位置编码缩放技术，解决音视频时序分辨率的天然差异。

简而言之，SkyReels V4 通过音画深度融合，可以实现台词口型、动作音效、配乐节奏的毫秒级对齐，与真实拍摄不相上下。

AI 视频创作中，复杂运动一直是个难点。但可以看到 SkyReels V4 的生成效果中，不仅人物的运动轨迹流畅自然，落地溅起的雪雾、滑行时带起的粉雪，全都与实景拍摄无二。此外，雪板摩擦的声音、运动的破风声，也与人物的运动轨迹完全吻合一致。

解决了音画同步的核心痛点，SkyReels V4 又用全模态精准控制系统，破解了可控性的行业难题。无论是首帧 / 首尾帧参考、多图参考、运动参考，还是多帧 / 网格图参考，它都能实现精准控制。对于短剧创作者来说，只需要提供一组分镜网格图，系统就能一键生成逻辑完整的叙事短片，彻底解决了角色走形、场景跳跃、镜头混乱的行业痛点。

不过最惊艳的，其实是它给 AI 视频注入了叙事灵魂。传统视频生成模型，往往只能作为机械的画手生成内容，画面流畅却不懂叙事，镜头华丽却毫无逻辑。SkyReels V4 创新引入了全模态语义 Reward 体系实时纠正逻辑偏差与物理错误，阶梯式课程学习路径让模型循序渐进掌握复杂叙事能力，让模型从低分辨率短时长的简单任务，逐步升级到商用级的复杂叙事任务，让 AI 从会画视频，变成了会讲故事。

而在参数与成本方面，SkyReels V4 已经实现 1080P 分辨率、32FPS 帧率、15 秒时长的商用级突破。在这背后，效率优化同样关键。通过低分辨率全序列 + 高分辨率关键帧的生成策略，搭配 VSA 稀疏注意力机制，SkyReels V4 直接把计算成本降低了 3 倍，实现了 1080P/32FPS 画质与高效生成的双赢，让 AI 视频生成，真正具备了规模化商用的可能。

04 音乐模型：

推理撑起的创作能力降维打击

中关村论坛期间，昆仑万维还最新发布了其全球音乐大模型 Mureka V9。

相比同类模型产品，Mureka V9最大的优势在于将推理能力，融入音乐的创作之中。

过去，以 Suno 为代表的其他模型，创作音乐，主要依靠模型在海量曲库里学习旋律、节奏、人声的组合规律，用户给提示词，模型按规律输出，却不懂自己写下的音符承载着什么。

而 Mureka V9 不仅生成得更快、更清晰，还能借助 MusiCoT（Music Chain-of-Thought）技术，让模型在拿到提示词之后，先完成一套完整的创作思考：这段音乐要表达什么核心情感？相应的，歌词段落要如何安排？主歌与副歌的结构如何递进？旋律怎样推进才能够与歌曲整体的表达氛围、歌词含义相一致。

更进一步，Mureka V9 相比此前的 V8 版本，还新增了更细粒度的歌词文本控制能力，能够更好理解不同段落中的表达重点、语义重心与演唱意图，适配强调情绪转折、语义推进和关键词落点的创作场景。整体混音质量与音色质感上，V9 也做到了人声与伴奏的关系更协调，整体听感更清楚、更通透，声音密度、空间感与完成度都更接近一首经过认真制作的作品。整体段落内文本控制、生成效率、混音质量与整体听感等多个关键维度，V9 做的深度进化，都让其能够做到更准确地理解创作者的具体表达诉求。

此外，一些不必要的人声哼唱、模糊唱词等干扰也在此版本中大幅减少；而在表达多样性上，V9 也大幅减少了旋律、编排与听感上的重复问题，让相同主题的创作，可以借助 AI 得到不同版本的试错与可能。

通过 Mureka V9，我们根据同一主题，快速完成不同风格音乐的创作。过去需要大量的 demo 录制、混音、乐器录制，现在只需要与 AI 对话就能完成。

通俗来说，Mureka V9 已经能使 AI 音乐从简单生成一首歌，进一步迈向能够更稳定地按创作意图创作一首好听的歌，从普通人的音乐生成玩具，升级为专业音乐人的生产级工具。

05 从 SOTA 模型到超级生态

关于昆仑万维的战略选择，我们不仅关心其究竟做到了何种地步，同时更关心的一个问题是，为什么是多模态，又为什么是昆仑万维？

一方面，行业顶级学者和实践者都公认全模态是一个上限更高，可以创造价值量更大的市场。

另一方面，论坛下午的圆桌期间，昆仑万维董事长兼 CEO 方汉的一段话，在商业侧对这个问题做了更好的补充「全模态的作用是让整个内容行业都能受益于门槛的降低、成本的降低，让更多创作者加入进来。全球将来不是有 60 亿观众，而是可能有 10 亿创作者。」

如果我们对生成式 AI 的理解还停留在用 AI 生成图片、音乐、视频的工具层，不断卷单模态模型的极限，那昆仑万维的确不是那个含着金汤勺出生的天才选手。

但昆仑万维从一开始，就瞄准了更远的终局：生成式 AI 的终极形态，不是一个个孤立的内容生成工具，而是一个能完整生成可听、可视、可交互、可记忆的多模态全家桶。

比如中关村论坛期间，重点介绍的 Mureka、SkyReels、Matrix-Game，从来不是三个孤立的产品，而是构建多模态世界引擎的三块核心拼图：比如在中关村论坛的圆桌环节，青年导演周楠就提到，电影为代表的艺术创作，是最拥抱先进技术的存在，而电影与游戏的结合是行业长期的大势所趋。

借助 Mureka 负责构建世界的听觉与情绪表达，SkyReels 负责搭建世界的视觉与叙事体系，Matrix-Game 则负责制定世界的物理规则、交互逻辑与记忆机制。三者从底层打通，形成的是一个完整的、从内容生成到世界构建的全链条技术体系。

而这才是昆仑万维真正的弯道超车逻辑。

最后的最后，建立在这个完整的体系之上，则是生态的突围。「生态」是周亚辉演讲中的高频词。他强调，「在未来三年，创作者经济会迎来很大的爆发」。而在这期间，以多模态大模型与平台为底座，开发者可以调用各种能力封装成智能体，创作者可以获得从音乐到视频到游戏开放世界的一站式 AI 创作体验，企业用户可以实现从内容生产到分发到变现的完整闭环。

届时，昆仑万维将不再只是一个工具提供商，而是成为行业的标准制定方、AI native 的平台经济体。

一定程度上，这是一种苹果生态式的野心：借助爆款产品或模型，卖整套系统和体验。

但对于这家立志从全模态突破到 AI 平台经济的企业而言，或许只是一个新故事的起点。