我们不想做追随者,而是做定义者。作者|Yolanda编辑|栗子3月27日,北京中关村学院在中关村论坛年会「全球对话」平行论坛活动上,发布了五项重要研究成果。其中,第一项联合深度机智正式推出的具身通用智能基座模型系统PhysBrain 1.0,不仅是一项技术更新,更被视为具身智能发展路径上的一次关键探索。PhysBrain 1.0 由三部分构成:基座模型 PhysBrain、双脑架构 TwinBrainVLA,以及训练策略 LangForce。整体从“理解优先,通用优先”的思路出发,尝试解决传统 VLA 模型在训练中物理常识缺乏、通用能力与任务能力难以兼顾的问题,使模型在保持认知能力的同时提升执行能力。与依赖真机数据的主流路线不同,这一体系引入大规模低成本人类第一视角数据,将物理常识作为训练核心,提升模型在复杂场景中的泛化能力。这一思路对应着行业正在出现的转向——从“动作模仿”走向“物理理解”。在中关村论坛活动的同期展上,深度机智同步展示了其自研的全尺寸拟人体机器人Prime。该机器人具备72个自由度,比例尺寸与人体同构,可实现毫米级精细操作,并可在断电状态下自主站立,主要用于验证通用具身模型在真实环境中的适配能力。深度机智全尺寸拟人体机器人Prime当前,全球具身智能领域还在“轨迹拟合、数据昂贵、泛化薄弱”的旧有范式打转,深度机智凭借一套完全自主创新的技术体系,给出了破局答案——让机器人首先像人类一样理解世界,才是实现通用智能的核心路径。作为行业新锐,深度机智成立于2025年,由北京中关村学院与中关村人工智能研究院联合孵化。与多数从硬件或控制层面切入的团队不同,该公司自成立之初便选择了一条差异化路径:让机器人通过人类第一视角数据理解世界,而非依赖大规模真机训练,这种创新思路也成为其技术突破的核心优势。不难看出,这款由中国团队原创、开源开放、拥有物理智能的“机器人大脑”,正以悄无声息却影响深远的方式,推动具身智能行业迎来一场范式革命。1.十五年积淀,他更早看到机器人的下一步很多创业故事,都从“看见机会”开始,但深度机智则是从“预见未来”开始。作为深度机智的灵魂人物,陈凯已经在AI领域浸润了15年。从学术研究到工程落地,他做过几乎所有“标准路径”该做的事:顶会论文、Nature子刊成果,以及在微软亚洲研究院主导研发的“文档智能”系统,这是一个年调用量达到千亿级的产品。深度机智创始人陈凯这是一条足够成功、也足够稳妥的轨道。但正因为走得够深,他也更早意识到一个问题:大模型解决的是“理解语言”,但没有解决“理解世界”。ChatGPT爆发之后,几乎所有人都在讨论生成式AI的可能性,而陈凯的注意力却落在另一件事上:如果机器已经可以理解文本,那么下一步,必然是进入物理世界。接下来的问题是,机器人怎么学呢?2024年,AI眼镜再度翻红,越来越多的人开始用设备记录自己的第一视角生活。这在别人看来是硬件创新,但陈凯看到的则是前所未有的数据来源。他发现这类数据不是孤立的动作切片,而是带着场景记忆、物理约束和交互逻辑的“活教材”,蕴含着人类与世界打交道的底层智慧。而这正是破解传统具身智能 “轨迹拟合” 困境的核心密钥。“人用眼睛理解世界,机器人未来也会如此。”这个念头一旦出现,就再也没有消失。2024年12月,他加入刚成立的北京中关村学院,开始做一件没有现成答案的事——用人类第一视角数据构建具身基座模型。2025 年 5 月,陈凯叫来了中科大少年班的室友张翼博,依托“新型大学 + 新型研发机构” 的创新孵化机制,共同成立了深度机智。深度机智联合创始人、CEO张翼博公司成立之初,得益于中关村学院与中关村人工智能研究院构建的开放创新生态,通过灵活的兼职管理办法与知识成果转移转化机制,研究人员们得以深度参与项目,这种环境让团队可以专注在把“人类经验”注入具身基座模型的事情上。但他们也听到了各种质疑的声音:“脱离真机数据的路线不切实际”,“这个赛道现在做太早”……于是,一些初创团队成员开始动摇,有人离开。最极端的时候,公司只剩下陈凯和张翼博两个人。后来回忆这段时间,陈凯说得很平静:“要知道,物理常识不可能来自机械重复,只能来自真实世界的交互。如果大家都觉得可行,那就不叫先行者了。”所以,他们坚信自己的判断,继续低头赶路。很快,这条人迹罕至的路上多了一些同行者。Tesla宣布开始减少遥操作数据,转向第一视角人类视频;Figure AI披露在与商业地产公司合作采集人类第一视角数据;越来越多团队开始尝试用第一视角人类数据训练机器人。与此同时,团队内部也在发生变化。在机器人领域全栈深耕十余年的何旭国的加入,让整个技术路径第一次形成闭环。作为机器人奥运会(First Gobal Challenge)青少年国家队的总教练,他补上了最关键的一环——如何让这些“理解”,真正落在机器上。深度机智联合创始人、总设计师何旭国“我们不仅要学习人类的动作轨迹,更要理解动作背后的物理逻辑。”陈凯的坚持终见曙光。当国内同行还在为真机数据采集成本居高不下而苦恼时,深度机智已用千小时人类数据实现了性能突破;当国外巨头仍困在 “轨迹拟合” 的死胡同,深度机智的模型已开始涌现出自主纠错、灵活应变 —— 这条“非主流路线”,渐渐成为引领行业的新方向。于是,三位创始人用各自的专业坚守,共同证明一件事情:真正的先行者,从来不是顺应行业潮流,而是创造行业潮流。2.从模仿到理解,机器人如何真的学会思考?深度机智究竟在做什么?答案很简单:打造能像人一样思考的机器人大脑,让机器人不仅能“动起来”,更能 “想明白”。传统具身智能路线依赖数万小时真机或仿真数据,模型只能机械复刻动作,无法理解物理常识,换场景就失效。就像教猴子做家务,手把手教十年也学不会灵活变通,因为它不懂“轻拿易碎品”“避开障碍物” 的底层逻辑。深度机智最先解决的是数据问题,先让模型开始有“物理直觉”。深度机智颠覆式地提出“先理解,后执行”(Understanding first, Action next)的核心理念,将人类第一视角数据作为模型的 “物理常识教材”。同时,深度机智构建了首个能将海量人类视频转化为具身智能训练数据的引擎,完成了约 3,000 小时人类第一视角视频的精准标注,涵盖真实三维环境中的空间关系、动作可行性及多步逻辑推理,从而挖掘出深层的物理规律与常识。高质量语料注入多模态大模型后,可以成功激发出模型的“类人”物理智能,推动模型从“模仿动作”升级为“理解物理”。通过这种方式,模型不仅学到“做什么”,更理解 “为什么这么做”——知道玻璃易碎需要轻拿,知道重物滑落需要调整握姿,实现从 “模仿” 到 “理解” 的质变。目前, PhysBrain 基座模型在空间智能、具身交互等多项权威评测中,全面实现SOTA(业界最优)性能,彰显了具身通用智能的核心竞争力。紧接着,深度机智还围绕模型与训练方式做了系统设计,让“理解”成为可能。目前,具身智能行业常常会遇到“捡了芝麻丢了西瓜”的问题:有的时候,模型为了学好简单的“抓拿放”动作,常常会忘记基础知识,丧失通用能力;为了保留通用知识,动作精度又上不去。这是业界热议的“灾难性遗忘”问题。为了解决灾难性遗忘行业难题,深度机智在2026年1月原创性提出 TwinBrainVLA “双脑融合” 架构,一部分负责通用认知,保持稳定;另一部分负责具体动作训练。两者协同工作,从而兼顾“常识”与“技能”。不过,机器人想要走向通用化,还有一个关键能力:到底可不可以听懂人话?很多模型在训练中会走“视觉捷径”,只根据画面做判断,而忽略指令本身。例如看到碗和抽屉,就默认执行“放进去”,其实根本不理解任务要求。但深度机智的LangForce通过调整训练机制,让模型同时理解语言、环境与任务目标,从“看图做事”转向“理解后执行”。当数据、架构与训练方式打通后,深度机智看到了令人振奋的模型智能纠错现象。深度基智在测试中发现,机械臂竟然会学着人的样子推胡萝卜尝试让它滚到盘子里,失败后还主动调整策略重新夹取,自主多次调整角度后成功完成任务;堆叠方块掉落时,会主动捡起并微调夹爪姿势。这些未在训练数据中出现的灵活策略,证明模型已初步具备物理常识和自主决策能力。“这不是编程好的动作,而是模型自己‘想出来’的解决方案。”陈凯的自豪溢于言表。此外,具身通用智能实现关键突破的另一个核心印证就是跨本体迁移能力。这意味着模型掌握的运动与物理先验知识可以从一种机器人(如特定品牌的机械臂)无损或低成本地迁移到另一种形态不同的机器人上,极大降低了新硬件的适配难度。为了验证这些能力,深度机智并没有停留在模型层,而是构建了完整的技术闭环:在数据侧,他们开发了低成本采集设备,将数据成本控制在传统真机数据的较低水平;在硬件侧,则打造了全尺寸拟人体机器人Prime,用于验证模型在真实环境中的表现。深度机智的数采设备“这些配套能力都是‘魂道法术器’中的‘器’,核心是为模型服务。”陈凯强调。全栈布局是为了确保技术闭环,每一个环节都精准支撑 “人类学习” 范式。当然,这条路线仍在早期阶段,数据质量、模型稳定性等问题仍需继续验证。但至少,它提供了一种新的可能:让机器人不只是会做事,而是真正理解这个世界。3.竞赛的分水岭,从机器人大脑自主可控开始如果说具身智能是一场全球竞赛,那么真正的分水岭,正在从“谁能造出机器人”,转向了下一个阶段:谁掌握机器人的大脑,谁就有可能掌握竞赛的主动权。过去几年,中美在这一领域逐渐形成“双极格局”。根据麦肯锡全球研究院预测,到2040年,机器人产业将创造约1900亿至9100亿美元收入,并可能贡献全球GDP增长的18%至34%。在这样一个潜在万亿级赛道上,中美已成为最核心的两股力量。但如果从技术结构拆解,这种竞争并不对称:美国强在“大脑”,中国强在“本体”。美国的优势集中在算法与系统层。以NVIDIA为代表,其在GPU算力、模型框架和仿真平台上构建了完整生态;Physical Intelligence、Generalist AI等公司,则直接聚焦具身智能“基座模型”,推动从语言模型向物理智能的延伸。相比之下,中国的优势更集中在制造与应用侧。从传感器、电机到整机集成,中国已经形成完整产业链,并具备极强的工程能力。以宇树科技为代表的企业,在机器人本体迭代和成本控制上具备显著优势。但问题同样明显,中国机器人在“机器人大脑”层面,长期存在路径依赖。不少企业仍追随国外开源的技术路线,核心能力受制于人。这也是为什么,大脑“自主可控”在具身智能领域,正在变成一个关键命题。如果底层模型依赖外部体系,那么即使硬件能力再强,产业链的上限依然会被锁定在应用层。换句话说,“身体强”还不足够,“大脑自主”才决定长期竞争力。正是在这样的背景下,一些中国团队开始尝试走出不同路径。深度机智提出的“人类第一视角学习”范式,本质上是一种绕开既有技术体系的探索:不依赖高成本真机数据,而是通过大规模人类视频提取物理常识,构建具身智能模型。这一思路的意义,不仅在于技术本身,更在于它提供了一种可能:用新的范式,重构机器人大脑的训练方式。更值得注意的是,这一方向正在获得越来越多外部验证。今年年初,英伟达提出了大规模第一人称人类数据的世界模型数据集DreamDojo-HV和世界动作模型Dreamzero,和VLA模型EgoScale;Generalist AI表示物理常识是智能的暗物质,是具身智能的关键。这一趋势在国内进一步扩散,国内不少科技公司陆续组建团队切入具身智能大脑赛道,部分初创公司也开始探索基于视频数据的新训练路径。从行业演进来看,一个清晰的变化正在发生:具身智能的竞争,正在从“数据规模”转向“架构范式”。谁能够更高效地获取“物理常识”,谁就更有可能构建通用能力。在这一过程中,中国反而具备一些独特优势。首先是数据与场景。相比美国,中国在工业、物流、服务等领域拥有更丰富的真实环境,这些非标场景天然构成高质量语料来源。其次是成本结构。人类第一视角数据的采集与标注成本,在中国更具优势,这使得大规模验证成为可能。再加上制造能力与应用落地,中国具备将新范式快速转化为现实系统的条件。可以确定的是,路径正在发生变化。对中国而言,真正的机会或许不在于复制既有路线,而在于找到一条属于自己的技术路径。无论是“人类第一视角学习”,还是其他可能出现的新范式,其核心意义都在于一件事,就是摆脱依赖,建立属于自己的技术体系。正如陈凯所说:“我们不想做追随者,而是做定义者。”在一个尚未定型的行业里,这种选择意味着更高风险,也意味着更大的可能性。但当越来越多企业开始在底层技术上做出不同尝试,中国具身智能的竞争方式,也将从“跟随”,逐渐走向“定义规则”。(封面图及文中图片来源:深度机智)END.