95% vs 34%成功率、能耗降低近100倍：神经符号方法击败VLA模型

来源：ScienceAI原文链接

专属客服号

微信订阅号

大数据治理

全面提升数据价值

赋能业务提质增效

　　新研究揭示VLA在结构化长程任务中的根本局限。

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑丨%

过去两年，具身智能（embodied AI）走向一个明确方向：把视觉、语言和行动统一进一个大模型。这类模型被称为 Vision-Language-Action（VLA）模型——它们可以看、能听懂指令，还能直接输出动作。

但机器人学界正狂热地追逐越大越好的 VLA 大模型的同时，一个根本性的问题却被悄悄搁置：这些动辄数十亿参数、需要数天微调、运行时还要烧 GPU 的庞然大物，真的适合那些有明确规则和约束的结构化任务吗？

塔夫茨大学（Tufts University）的一支团队给出了一个响亮的否定答案。研究团队设计了一场「汉诺塔」操纵任务的公平对决：一方是当前最先进的开源 VLA 模型 π0，另一方则是一个结合了 PDDL 符号规划与扩散策略的神经符号架构（NSM）。

结果令人震惊——在 3 块汉诺塔任务上，NSM 成功率高达 95%，而 VLA 仅 34%；在面对未训练过的 4 块版本时，VLA 全军覆没，NSM 仍能达到 78% 的成功率。更讽刺的是，VLA 微调消耗的能量是 NSM 训练的近 100 倍。

相关的研究以「The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption」为题，将于 5 月在维也纳国际机器人与自动化会议上发表，并发表于会议论文集。

论文链接：https://arxiv.org/abs/2602.19260

端到端 vs 神经符号

前文中所述的塔汉诺问题（Towers of Hanoi）是一款经典问题，这个任务具备三个关键特征：明确的规则约束、长时间规划（long-horizon）与强结构依赖，正是检验「推理能力」的理想场景。

在这任务中，π0 等模型在抓取、摆放等短程操作上虽然表现出色，但当任务需要多步推理、遵守特定规则（如汉诺塔的「大不能压小」）时，问题就暴露了——VLA 需要从演示中隐式地学习这些约束，而训练数据中任何细微的偏差或多样性都可能让模型无所适从。

而 NSM 则采用「分层」设计。高层用PDDL符号规划器，基于从少量演示中提取的抽象规则生成符号化计划；低层用扩散策略将计划转化为连续控制动作。这种设计将「推理」与「执行」解耦，规则清晰、可解释性强。

图 1：VLA 模型与 NSM 实验比较概述。

研究团队在 Robosuite 仿真环境中设计了三个难度递增的任务：单次抓取放置、3 块汉诺塔、4 块汉诺塔（后两者未见训练）。对比对象包括：

E2E-VLA：端到端微调，仅接收「玩汉诺塔」这一条高层指令。
PG-VLA：在外部规划器提供的最优子任务序列指导下微调，以隔离执行能力。
NSM：仅从50个简单的「堆叠」演示中学习，从未见过完整的汉诺塔求解过程。

图 2：数据集中的示例观测数据。

训练数据上，VLA 消耗了 300 个完整汉诺塔轨迹，而 NSM 只用了 50 个堆叠演示。硬件上所有实验在同一台 RTX 4090 上完成，并精确记录了 GPU/CPU 的功耗和能量消耗。

碾压性的结果差距

在最基础的三块塔汉诺任务中：

神经符号模型成功率：95%
最优VLA模型成功率：34%

差距接近 3 倍。

当任务稍微增加复杂度（4块）时：

神经符号模型仍能完成任务：78% 成功率
所有VLA模型：完全失败

表 1：训练硬件指标，比较 VLA LoRA 微调与 NSM 训练。

这意味着 VLA 不仅性能较低，而且几乎没有结构泛化能力。但这并非是结束，更关键的差距还在二者的能耗对比上。在训练阶段，VLA 微调能耗要高出神经符号方法近两个数量级（≈100倍）。即使是推理阶段，能耗也有接近 10 倍的差距。

VLA 的失败主因并非规划错误，而是低级执行上的偏差——反复抓取失败、放置位置不准。训练数据中的随机扰动（块位置偏移1cm）本意是增强稳健性，反而让模型难以锁定精确目标。在某些极端情况下，同一子任务指令的演示若区别较大，则很有可能出现对模型的强烈干扰，并进一步带来极高的失败率。

表 2：实验的功耗、能耗及任务表现。

能源风险与未来方向

研究团队将神经符号系统与熟悉的大型语言模型如 ChatGPT 或 Gemini 进行了类比。后者只是试图预测序列中的下一个词或动作，但这并不完美，可能导致结果失真或者出现错误的信息。而且，它们的能源消耗往往与任务本身不成比例。

VLA 或许更适合开放环境下的短程、灵活操作，而工业装配、实验室自动化、规则明确的物流任务，神经符号架构可能是更务实的选择。大规模部署时，能耗固然是一个不容小觑的问题。正如论文所言，「通用」不一定意味着更合算。

相关链接：https://techxplore.com/news/2026-03-neuro-ai-slash-energy.html

转载说明：本文系转载内容，版权归原作者及原出处所有。转载目的在于传递更多行业信息，文章观点仅代表原作者本人，与本平台立场无关。若涉及作品版权问题，请原作者或相关权利人及时与本平台联系，我们将在第一时间核实后移除相关内容。

95% vs 34%成功率、能耗降低近100倍：神经符号方法击败VLA模型

大数据治理

产业专题