机器人前瞻(公众号:robot_pro)




作者|葛文婷




编辑|漠影



机器人前瞻3月11日报道,Rhoda AI当地时间周二宣布完成


4.5亿美元(约合31.01亿元人民币)A轮融资


,该公司估值达


17亿美元(约合117.16亿元人民币)





本轮融资由Premji Invest领投,Khosla Ventures、淡马锡、Mayfield、Capricorn Investment Group等机构跟投。



Rhoda AI团队专注于将机器人系统部署到现实世界中,构建通用的基础模型,使其能够适应商业和工业环境的多变性。




一、62岁上市公司创始人再创业,联手斯坦福教授造机器人大脑





硅谷机器人创企融资31亿元,淡马锡投了




▲Rhoda AI创始人兼CEO Jagdeep Singh



Rhoda AI成立于2024年,总部位于硅谷帕洛阿尔托,创始团队在本次融资前一直处于“隐身模式”,但是创始人兼CEO Jagdeep Singh可并不“隐身”,他是


硅谷的连续创业者


,此前


曾创立固态电池制造商QuantumScape Corp


,在电动汽车和能源存储领域拥有丰富的创业经验。



25年前,Jagdeep Singh创办光网络公司Lightera Networks,一年半后以5亿美元卖给Ciena。随后联合创办Infinera,带队从初创走到IPO,这家公司后来被诺基亚以23亿美元收购。



2010年,Singh做了一个疯狂的决定:跨界去做固态电池。当时电动汽车刚起步,主流还是液态锂电池,他却押注“能量密度接近汽油”的固态技术。那家公司叫QuantumScape,在隐身模式下打磨了整整十年。



2020年,QuantumScape通过SPAC上市,市值一度冲破


500亿美元(约合3445.85亿元人民币)


。大众汽车追着投钱,他本人也成了全球薪酬最高的CEO——2024年薪酬包包含价值


23亿美元(约合158.51亿元人民币)


的股票期权,折合日薪


约48亿卢比(约合3.6亿元人民币)





就在所有人都以为他要功成身退时,62岁的Singh又悄悄开始了下一段冒险。



硅谷机器人创企融资31亿元,淡马锡投了



2024年,他卸任QuantumScape CEO,转身创办Rhoda AI。这一次,他要给机器人造“大脑”。技术路径同样另类:不让机器人“手把手学”,而是让它自己看数亿条互联网视频,从中理解杯子会碎、球会滚、物体会遮挡——把“物理常识”装进机器人的脑子里。





联合创始人兼CTO陈志强


,美国斯坦福大学博士,曾任职NASA喷气推进实验室、谷歌、英伟达、World Labs。





Gordon Wetzstein


是斯坦福大学电气工程系副教授和Rhoda AI 联合创始人,他的研究横跨计算机图形学、计算机视觉、人工智能、计算光学等多个领域。





二、让机器人先看懂世界再动手做事,10小时学会复杂工业任务




Rhoda AI的独特之处在于,它将机器人控制重新定义为


“实时视频预测”





目前,大多数机器人公司采用视觉-语言-动作(VLA)模型路线——让机器人通过遥操作采集数据,学习“看到什么→做什么”的映射。这种方式受限于专用设备和人工采集效率,数据量难以扩展,且模型上下文通常只有几帧,难以处理复杂的长时序任务。



Rhoda走的是另一条路:


Direct Video-Action Model(DVA)


。这套系统的核心逻辑是:让机器人先看懂世界,再动手做事。



具体来说,DVA模型先通过分析海量互联网视频进行预训练,学习物体的运动规律、物理世界的运行逻辑——杯子怎么碎、球怎么滚、物体会如何遮挡。然后,在机器人执行任务时,模型会持续预测未来几秒内“应该发生什么”,再通过一个逆动力学模型将这些视觉预测转化为机器人的物理动作。这个过程每秒循环数十次。



该技术方案有四大核心优势:






  • 数据效率极高:


    传统VLA模型需数十万小时数据,而Rhoda仅需10-20小时任务数据(如拆箱分拣11小时、工业容器拆解17小时)即可学会复杂工业任务,实现数小时无人工干预运行。




  • 拥有长上下文视觉记忆:


    DVA原生支持数百帧视觉上下文(VLA仅几帧),能端到端完成复杂长时序任务——退货处理中,8帧记忆会导致重复,而长上下文可流畅完成。




  • 具有单样本学习能力:


    基于长上下文,DVA支持现场学习:仅需一次人类演示,机器人就能在测试时模仿,泛化到新物体和新环境。




  • 具有可解释性:


    DVA以视频形式生成动作,研究者可直观看到模型“想象”的未来,便于检查决策、比较配置、验证安全性。



“我们的方法之所以能规模化,是因为视频数据的存在量级比机器人交互数据高出好几个数量级。”Singh解释,“我们用海量视频让模型先学会‘物理常识’,再用少量机器人数据让它学会‘具体任务’——这和让小孩先观察世界、再动手做事是一个道理。”



这套技术方案试图解决机器人领域的长期难题:大多数机器人在可控环境中表现良好,但一旦遭遇突发状况便会失灵。公司表示,未来计划将FutureVision平台授权给硬件厂商使用,且平台设计兼容多种机器人,企业无需改造现有系统即可部署。





结语:机器人的能力边界,取决于“大脑”的进化速度




Rhoda AI选择了一条与众不同的技术路径——用海量视频数据训练机器人的“常识”。这与国内“大脑”企业从工业场景切入、用少量数据解决具体问题的思路形成鲜明对照。



哪一种路径更能通向通用智能?目前尚无定论。


但一个清晰的趋势是:本体厂商正集体补课“大脑”。


宇树科技王兴兴公开表示,“谁能把机器人用的大模型做出来,谁就是全世界最厉害的AI公司和机器人公司”。Figure AI以


390亿美元(约合2687.76亿元人民币)


估值领跑全球具身智能企业榜单,也印证了资本市场对模型能力的高期待。



对于中国企业而言,Rhoda的融资释放了一个信号:


在“大脑”赛道上,中美几乎处于同一起跑线。


中国的供应链优势、数据积累以及工业场景的丰富度,是独有的筹码。正如一位投资人所说:“未来机器人的能力边界,取决于会思考的大脑与会行动的本体的协同进化。”



此刻,一场关于“大脑”的卡位战,才刚刚开始。