深度｜2026具身智能的关键分水岭：谁将重新定义“通往物理世界的模型层”？

来源：Z Potentials原文链接

专属客服号

微信订阅号

大数据治理

全面提升数据价值

赋能业务提质增效

　　为什么2026年具身智能的范式变革，发生在模型架构层？

一、导语

AI 正在经历下一次跃迁，进入物理世界。

在不久前落幕的NVIDIA GTC大会上，黄仁勋抛出了一个极具前瞻性的论断：AI的需求已远远溢出IT产业的边界，所有现实行业都需要“与物理世界交互的AI”。

2026年的分水岭，也因此变得清晰：决定胜负的，不再只是模型参数规模或算力堆叠，而是谁能够定义“通往物理世界的模型层”。目前，依托完整制造体系，中国已经在机器人本体、执行器、供应链等环节占据全球领先位置；但另一方面，在决定系统上限的基座模型层，行业仍处在路径未收敛与范式未定的阶段。

这也意味着，具身智能的竞争焦点，正在从“机器人形态”本身，转向更底层的能力构建。硬件不再是唯一变量，真正稀缺的是能够统一感知、决策与行动的“具身大脑”。

也正是在这样的背景下，一股新的力量开始试图引领行业新变革。作为由北京中关村学院与中关村人工智能研究院共同孵化的首家具身智能公司，深度机智直接切入更底层也更难的具身大脑领域，公司在2026年的中关村论坛上，发布了全球首个以人类学习范式构建的PhysBrain1.0 具身通用智能大模型体系，代表了一种“具身智能基座模型”的全新尝试。

这不仅是一次产品发布，更是一种明确的路径表达：在物理AI时代来临之前，先定义“什么是具身智能的大脑”。而对于一家成立不到一年的公司，为什么敢于重新定义“下一代具身智能大脑”？

二、2026年，一场具身智能模型层的范式革命

2026年，具身智能正在迎来一次明确的范式切换，这次拐点，并不发生在硬件端，而是落在模型层。深度机智全新发布的PhysBrain1.0 具身通用智能大模型体系，正是这一大机遇下的典型代表。

过去一段时间，行业的核心瓶颈其实非常清晰——基座模型缺乏“物理智能”。无论是多模态大模型（VLM），还是世界模型与视频生成模型，在处理真实世界任务时，都暴露出系统性的“物理常识缺失”。

这种缺失体现在两个层面：一是空间与时序理解能力不足。模型可以识别物体，却无法稳定理解它们之间的关系，例如连“桌子上有几个杯子”这样的问题都难以可靠回答；二是物理一致性缺失。尽管视频生成已经足够逼真，但物体运动往往违背基本物理规律，经不起推敲。

真正的变化，发生在2026年前后。

首先在模型层，具身领域开始出现清晰的Scaling Law信号。由Pete Florence创立的Generalist发布GEN-0模型，被业内视为标志性事件：随着预训练数据与算力的持续增加，模型在多任务场景中的性能提升呈现出稳定且可预测的趋势，并开始出现跨任务迁移能力。一旦这一规律成立，竞争逻辑随之改变——决定系统上限的，不再是机器人能完成多少动作，而是模型能否形成对物理世界的统一表征。

几乎同步发生的，是数据范式的转移。

2026年，被一线团队普遍视为“人类学习（AnthroLearning）的元年”。行业开始从“遥操作+仿真数据”的路径，转向以人类第一视角（Ego-centric）为核心的数据体系。模型学习的对象，不再只是动作轨迹，而是人类如何感知环境、做出判断并与世界交互的全过程。

深度机智创始人陈凯在访谈中进一步解释，这种转变的底层逻辑在于“第一性”：机器人未来也是通过自身感知系统与世界交互，而第一视角数据，天然记录了这一过程。相比传统数据，这类数据不仅包含动作结果，更隐含了空间关系、时序逻辑以及物体的物理属性等关键信息。

深度机智创始人陈凯

反观当前主流路径，无论是VLM还是视频模型，之所以难以跨越“物理理解”门槛，正是因为训练数据中缺失了这一层结构；而遥操作与仿真数据，则更多是对动作轨迹的记录，数据成本高、效率低，且多样性有限。

更重要的是，这一路径具备明显的可扩展性。在中国，获取千万小时级的人类第一视角数据在成本与规模上具备现实可行性，一旦与Scaling Law结合，具身智能有望复制大模型曾经历的“能力涌现”曲线。

技术信号之外，产业侧的反馈同样迅速。随着模型能力开始出现阶段性突破，多家公司在2026年初密集入场，快速组建团队。具身智能由此从技术探索期进入结构性投入周期。深度机智创业团队早在2025年初就开始在这个方向的前瞻性下注。

在深度机智看来，具身智能难以跨越泛化门槛，根源不在数据量或工程能力，而在于缺失了“物理常识”这一关键中介。它如同智能系统中的“暗物质”，决定了模型能否理解世界、迁移能力及最终上限。

基于此判断，公司没有走既有优化路线，而是从模型架构层重新出发，从人类第一视角视频中提取稳定的物理规律与交互逻辑，先建立对世界的理解，再执行具体任务。用团队的话说，这是“先让猴子变成人，再学习动作”。如果物理常识无法被建模，具身系统将停留在“手工作坊”阶段——依赖简单拟合轨迹，难以泛化，更谈不上通用智能。

公司发布的PhysBrain1.0 不仅是业内首个基于人类第一视角真人数据、采用全新架构设计的具身通用基座模型，也是具身智能领域的全球最新范式成果。可实现跨场景、跨形态的灵活适配，为物理世界 AGI（通用人工智能）研发奠定关键基础。

PhysBrain的智能涌现能力表现突出：它可以以更少数据，获得更强泛化能力。例如，在一项将胡萝卜放进盘子的任务中，模型只学过“夹取”动作。真机测试时，当机械臂碰到胡萝卜时，它选择了模仿人类，试图直接将胡萝卜推入盘中，推入失败后又自发调整策略，由推改夹，一次夹取失败，又调整角度加大力度，直至完成任务。这种类人的灵活应变，正是智能涌现的体现。

此外，基于“物理常识”的路径还赋予模型跨本体能力。由于物理规律在不同形态机器人间通用，模型在一种机器上学到的运动先验可迁移至另一种构型，大幅降低不同机器人间的适配难度。

三、当具身智能竞争转向“物理常识”：深度机智的底层优势

回到宏观视角，这一切指向同一结论：当具身智能进入由“物理常识”驱动的阶段，竞争的核心不再是硬件性能或数据规模，而在于是否构建出底层能够理解物理规律的基础模型。深度机智的选择，本质上是在这一拐点上，提前押注了“答案本身”。

首先是路径层面的领先。当行业仍围绕遥操作与仿真数据反复迭代时，深度机智率先提出并系统化实践了“人类学习”（AnthroLearning）范式，并提前一年布局。这一范式的核心，不是让模型复现动作，而是让模型从人类行为中抽取“空间关系—交互逻辑—物理约束”的隐含结构。

在PhysBrain 1.0中，这种差异已转化为可观测的能力表现：模型不再依赖固定轨迹，而是在执行过程中具备自发纠错与策略调整的能力，例如在抓取失败时自动切换路径，并在不同机器人本体之间保持迁移能力。这种“策略层”的生成能力，本质上意味着模型已不再是执行器，而是一个具备初步决策属性的“系统中枢”。

更为关键的是，其底层架构并未沿用主流的VLA或PaLM-E路径，而是完全自研，从一开始便围绕“物理理解”而非“视觉对齐”构建。这使得其在能力结构上，与当前主流多模态模型形成了代际差异。

这种架构选择直接带来了一个更具冲击力的结果：数据效率的跃迁。

相较于行业普遍依赖数万小时真机轨迹数据的训练路径，PhysBrain 1.0基于“人类第一视角”带来的增强，在同等参数规模下，于 ERQA 和PhysBench 等物理常识权威评测中均位列榜首，同时基座模型的多项通用能力指标也刷新了行业纪录。

在没有任何动作预训练的前提下，PhysBrain 以极高的数据效率，在多个具身任务的国际榜单中表现突出：在 SimplerEnv 的 WidowX 与 Google Robot 测试中刷新了泛化能力的榜单纪录；在 RoboCasa 与 LIBERO 任务中，PhysBrain 同样稳居榜首。在这些核心维度上，形成了对众多依赖海量动作数据训练的知名模型的明确性能优势。

其次是团队结构本身的稀缺性。深度机智的核心团队是一个典型的多能力铁三角：创始人陈凯是微软前首席研究员，在人工智能领域有 15 年经验，见证并参与了本轮人工智能革命历次的范式变革；联合创始人、CEO张翼博毕业于中科大少年班学院，与创始人是大学室友， AI for science 领域专家，其一作研究成果被Nature子刊录用，并被中科院首页报道；联合创始人何旭国是机器人设计专家，在机器人领域全栈深耕十余年，带领中国队两次夺得机器人领域奥运会FGC世界冠军。团队同时覆盖了认知建模、科学理解、工程实现”三重能力。相比单一算法或硬件团队，这种结构更接近一个“完整系统”的原型。

进一步放大这一优势的，是其背后的体系资源。作为北京中关村学院与中关村人工智能研究院孵化的首家具身大模型公司，深度机智因研究方向的前瞻性，已经吸引了近30名博士生以及多名研究员长期参与研发，这种智力资源投入规模在全国范围内独树一帜。与此同时，公司在长期研发投入与基础设施保障上也获得了持续的战略支持，使得团队能够在一个长周期问题上进行系统性投入，而非局限于短期验证。

最后，深度机智选择的一体化路径也是公司的核心优势之一。在技术架构上，深度机智并未将模型、硬件与数据割裂，而是选择三者同步自研，形成闭环：在模型层，PhysBrain 1.0尝试定义具身智能的全新基座；在硬件层，推出具备72个自由度、支持断电自锁站立的全尺寸工业级拟人体机器人Prime，为模型提供真实的执行载体；在数据层，通过自研便携式采集设备，采用无需在手部佩戴机械装备的轻量化第一视角数采方案，在真实工作情境中完成多模态数据采集，从源头大幅降低大规模人类第一视角数据的获取成本。

由此公司构建了“数据—模型—执行”的正反馈循环：数据塑造模型，模型驱动行为，行为再反哺数据。从行业视角来看，这种路径更接近于具身智能时代的“基础设施公司”，而非单一产品公司。

四、愿景、路径与野心：一家“机器人大脑公司”的全球竞速

做具身智能大脑只是第一步，实际上在具身智能的赛道上，深度机智从一开始就将目光投向了更远的终点——具身通用人工智能（Embodied AGI）。

创始人陈凯指出，深度机智并不满足于让模型复现单一动作或完成特定任务，而是致力于构建一个能够真正“理解世界”的通用智能系统。在这一愿景指引下，公司一方面将通过开源4B和8B模型以及相关模型架构和训练算法，迅速建立起行业影响力，让全球开发者社区得以验证其技术路线的可行性。另一方面，从更长远的视角看，当模型能力达到一定水平后，公司还将以提供“物理智能TOKEN”或基座模型服务的方式，赋能全行业机器人本体厂商，成为产业链上游的核心能力提供者。

在商业化路径上，深度机智采取了“沿途下蛋”的分阶段价值释放策略，CEO张翼博的思路很明确：技术尚处于范式早期，与其过早锁定单一产品形态，不如分阶段释放能力价值。

他提到，目前深度机智的数采硬件已经开始尝试商业化落地，这是研发过程中的自然延伸。未来，更大规模的模型有可能商业化，对外赋能机器人厂商。在这一设想中，公司并不直接参与本体制造，而是定位为“上游大脑提供者”。

“我们的长期目标是高壁垒场景——那些‘脏、难、繁、险、奇’的环境。”张翼博提到，他的判断是，具身智能的真正价值不在于替代简单劳动，而在于进入人类难以长期或稳定完成的场景，例如生化实验、核辐射区域

以及康养康复等高度非标准化环境。在这些场景中，对“理解世界”的要求远高于“执行动作”，也更能体现模型层能力的差异。

在行业愿景与国际竞争上，深度机智的态度则显得更加直接。

张翼博并不回避对标关系，他将公司的目标明确指向成为“中国版的Generalist AI”，甚至进一步强调，不只是跟随，而是要在架构层正面竞争。这种定位，意味着公司选择站在产业链中上游——不做具体产品，而是为整个机器人行业提供“智能底座”。

张翼博认为，2026年将是“人类学习（AnthroLearning）”的元年，也是中美具身智能差距快速缩小的起点；而在陈凯看来，随着物理常识逐步被建模，具身大模型将在2026年底开始频繁出现“智能涌现”，并在未来3到5年内，对家庭服务与生产制造产生实质性重构。

这不是一次对现有路径的追赶，而是一次对智能本质的重新定义。在物理智能的浪潮即将到来的前夜，深度机智选择站在浪潮的最前端，不是等待答案，而是亲手写出答案本身。

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

深度｜2026具身智能的关键分水岭：谁将重新定义“通往物理世界的模型层”？

大数据治理

产业专题