智驾定型之战:一文看透自动驾驶“端到端”的底层逻辑与架构演进

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
最近的GTC 2026不管是主机厂的理想、小米、吉利千里科技还是辅助驾驶供应商们元戎、大疆卓驭、文远都在GTC分享了他们对于自动驾驶算法的研究和应用。
对于自动驾驶算法101高阶的关键词无非三个“端到端(End-to-End)”、“世界模型”、“VLA”。这三个词基本上预示自动驾驶算法路线算是统一确立。
所以,Vehicle将基于本次GTC 2026 内容整理这些算法的逻辑和架构,帮大家看懂当前营销话术拒绝忽悠,或着入门了解自动驾驶算法。
首先是“端到端”其实中国辅助驾驶从特斯拉在2024年年初推出FSD V12时候,就开始喊“我们也端到端了”。
但发展到2026年的现在,不少人会发现过去的辅助驾驶总让人觉得像个“新手”,动不动就画龙、急刹、遇到修路就懵圈?而现在的系统却越来越像个老司机?这背后的核心秘密,就是端到端算法的全面普及。
今天,没有枯燥的数学公式,而是用最直白的方式,把这个智驾圈最火的“黑科技”一次性讲透。
一、 什么是自动驾驶的端到端(End-to-End, E2E)算法?
自动驾驶端到端大模型,是指基于大规模数据训练的神经网络系统,直接从多模态传感器输入(如摄像头、激光雷达等),通过统一模型进行表征学习与决策推理,输出车辆控制指令(如转向、加速、制动)
本质上,它是一种将自动驾驶任务视为输入到输出的整体映射问题的模型范式,你也可以认为他们共享某种语言进行信息传递。所以,谈论端到端的时候常常就看到如下一个大图,一个大模型,光子进去动作出来。
从架构来说,常见的端到端就是一个视觉编码器(Vision Encoder)加动作解码器(Action Decoder)的架构。端到端具备快速直觉的响应特点,一般是通过模仿学习,能更好的学到这种拟人化的体验。
这里就给端到端接下来的发展埋个伏笔,传统端到端的弊端就是必须要见过的东西,没见过的就蒙圈,所以一直要给他喂长尾数据,那何时是个头?
所以后面就基于端到端的基础上发展出VLA、世界模型等概念。发展出现在所谓的L2++算法可以拓展到L4的说法,因为他可以推理没见过的,可以自我学习。
不管如何,自动驾驶算法端到端的这种演进背后的行业共识可以总结为:
自动驾驶行业彻底摒弃基于规则的规划逻辑和人工设计的特征表达,因为人类世界真的太复杂了,即使是交通驾驶看似单一的任务都有规则写不完的场景。
基于这个端到端的逻辑思维,可以创新算法应用,拓展出更加类人的算法思维可以拓展更好的产品形态。那“端到端”喊了这么久,“端到端”到底有哪些种类?又经历了哪些迭代?
二、 端到端算法的发展与种类
虽然我们常在宣传上听到端到端,但,其实自动驾驶端到端架构在国内业内经历了三种核心形态的演进。
最先开始的是,两段式端到端虽然被称为端到端(通常指整个网络可以联合求导和训练),但它在结构上依然保留了传统的“感知-规划”两段式串联逻辑。当然没有人说自己的算法是两段式端到端,但是从2025年地平线喊一段式端到端之前,基本上不管是小鹏、Momenta叫的出名的量产端到端基本上都可能是两段式。
他的算法组合架构:传感器数据 -> 感知编码器 -> 感知解码器 -> 输出显式人能看懂的结果(如障碍物 Object、车道线 Lane 等) -> 规划模块 -> 自车轨迹。
架构特点:规划模块完全依赖感知网络吐出的显式物理级结果(也就是人类能看懂的目标级信息)来进行决策。
优劣势:优势是可解释性强,出了事故或者画龙,很容易排查是感知漏检了还是规划写错了;劣势是存在严重的信息损耗(Information Loss),三维世界被压缩成了几个特定的标签(比如只输出框和类别),很多对驾驶有用的隐含信息(如行人的微小肢体动作、路面湿滑程度的视觉特征)无法传递给规划模块。
有人表示,其实严格上来讲,两段式端到端应该并不是端到端,只过不国内为了追求营销效果硬贴上的。
带显式感知的一段式端到端,这是一种过渡形态,或者是目前许多追求安全与性能平衡的智驾团队采用的混合架构。
他的算法组合架构:和两段式的算法组合一致,不过,它的规划模块接收两路输入:一路来源于感知编码器的底层高维特征(Features),另一路来源于感知解码器的显式结果(Object/Lane...)。
架构特点:规划模块不仅能“看”到传统的障碍物和车道线,还能直接“看”到未经压缩的底层神经网络特征。
优劣势:既保留了显式感知带来的结构化约束(作为一种安全冗余或辅助监督),又引入了丰富的隐式特征,打破了传统两段式的信息传递瓶颈。
目前这种应该是当前国内端到端的主流形态,一段式端到端输出的轨迹添加结合显式感知元素的后处理,大家唯一的区别是后处理多与少的问题,如果一段式做的不好,后处理给多了,不拟人,给少了出事故。
终极端到端,这是最“纯粹”的端到端形态,也是目前业界探索的最终极方案(类似于 Tesla FSD V12 的理念)。
他的算法组合架构:传感器数据 -> 感知编码器(或基础模型 Foundation Model)-> 视觉 Token(Visual Tokens) -> 规划模块 -> 自车轨迹。
架构特点:完全抛弃显式感知输入,规划模块直接消化高维的“视觉 Token”,跳过了人类定义的 Object/Lane 概念。此时,感知解码器(Perception Decoder for HMI)被剥离,它仅仅是为了在车机屏幕上渲染给驾驶员看(HMI),完全不参与车辆的实际驾驶决策。
优劣势:优势是真正实现了“无损”的信息传递,理论上限极高,模型完全通过数据学习如何直接从像素映射到动作。劣势是典型的“黑盒(Blackbox)”,可解释性极差,如果车做了一个奇怪的动作,工程师很难像过去那样通过 debug 代码来定位和修复问题,只能靠喂更多针对性的数据来纠正。
这三种端到端的的核心差异在于规划模块输入的信息维度不同,以及显式感知在整个系统中所占的权重。
发展本质上是一个从“模块化残留”向“纯粹数据驱动黑盒”演进的过程,原则上的发展趋势是从上往下损失的信息越来越少。
三、 拆解端到端算法:感知的骨干网络与感知解码器
如上文讲到的,端到端算法里面是由非常多不同的模块组合而成,他们配合将传感器捕获的信息,尽可能保留进行传递,当然这里传递的东西可以统称为视觉信息的Tokens,最终让执行端精准执行。
那么里面有些什么模块?这些模块都是一些什么样的算法?
其实自动驾驶感知系统处理流程通常是模块化的接力赛,每个模块负责不同,通过Tokens进行传递。
第一棒:主干网络(Backbone)——负责“打地基”车上的多个摄像头拍下原始的 2D 画面后,首先交由 Backbone 处理,将原始像素点转化为包含物体边缘、纹理、颜色等高层语义信息的 2D 特征图(Feature Maps),这部分常被称为“视觉分词器”。常见的主干网络分为两类:
基于 CNN(卷积神经网络)的 Backbone:例如 ResNet 系列(如 ResNet-50, ResNet-101),是行业内最经典、最常用的打底网络,算力消耗相对可控;还有 VovNet,其特征融合效率很高,是很多头部智驾团队在打榜或追求极致性能时非常喜欢的 Backbone。
基于 Transformer 的 Backbone:如 ViT (Vision Transformer) 或 Swin Transformer,具备全局注意力的特性,能提取出更优秀的全局上下文特征,是大模型时代的主流。工程师优化 Backbone 意味着换成感受野更大的版本,以提供高质量素材供后续进行 3D 目标检测,这个当前的主流算法。
第二棒:感知框架(Neck/Head)——负责“建高楼”像 PETR 或 Sparse4D 这样的算法负责将基本的图像特征转化为具有 3D 甚至 4D(含时间)空间和语义理解的深度特征,从而输入到整个网络架构中。
PETR(Position Embedding Transformation - 位置嵌入变换):由于摄像头拍到的是 2D 图像,自动驾驶需要知道物体在 3D 世界的具体位置,PETR 利用 3D 位置嵌入技术,直接将 3D 空间位置信息“融合”到 2D Backbone 输出的图像特征中。
Sparse 4D:这是一种基于查询(Query-based)的稀疏感知方法,不显式地将全图转为 3D,而是通过在特征空间中迭代地更新少量的“查询点”(Queries)来逐渐聚焦和理解环境中的关键目标,极其高效地完成 3D 检测、追踪和建图。
第三棒:感知解码器(Perception Decoder)紧接在感知编码器之后,任务是从特征中“解码”出最终感知结果(车在哪、前方有无障碍等)。分为两大流派:
稀疏头(Sparse Head / Query-based 方案):核心逻辑是“按图索骥”。它预先设定一组固定数量的“查询向量”(Queries,比如 900 个虚拟探测点),投放到特征图里主动寻找目标,匹配成功则直接输出目标的 3D 边界框。代表算法有 DETR3D、PETR、Sparse4D 系列。优点是极其节省算力(跳过空白区域)且擅长追踪动态目标(如汽车、行人),缺点是无法很好地描述不规则物体(如碎砖块、异形路障、连绵花坛)。
稠密头(Dense Head / Dense BEV 方案):核心逻辑是“地毯式搜索”。把车辆周围 3D 空间强制划分为密密麻麻的网格(例如 20*20*20 cm的立方格),对每一个网格进行逐一扫描和全量卷积计算。代表算法有 BEVDepth、Occupancy Network(占据网络)。优点是具备无死角的安全底线(只要占据空间就能扫出异形障碍物)且擅长静态环境感知(车道线、可行驶区域),缺点是极其消耗算力,需要在大量无效的“空气网格”上花费计算资源。
以上基本上就是当前端到端感知算法的骨干模块了,他和规划模块的信息传递是继续用token还是提取出了人类熟悉物体,就决定了这个算法是一段式还是两段式端到端。
四、 拆解端到端算法:生成动作的规划模块(Planning)
规划模块(Planning Decoder)的核心任务是根据感知特征生成车辆未来几秒的行驶轨迹(坐标点、速度和航向角)供执行机构执行。
目前主流有三大算法流派:
Reg(Regression / 回归算法):核心思路是“一步到位”的全局预测。模型看一眼当前环境,一次性、同时输出未来所有的轨迹点坐标(例如 $t_1, t_2, t_3$ 时刻的 $x,y$ 坐标),就像射箭一样轨迹瞬间决定。
优缺点:优点是计算速度极快,延迟极低,非常适合车端部署。缺点是难以处理“多解”情况(多模态问题),例如遇到障碍物既能左绕也能右绕时,简单的回归算法会试图“找平均”,画出一条笔直撞向障碍物的致命轨迹。
AR(Autoregressive / 自回归算法):核心思路是“走一步,看一步”的串行预测,类似大语言模型生成文字。模型预测出 $t_1$ 的点后,将其作为已知条件喂回给模型去预测 $t_2$,如同“摸着石头过河”或“词语接龙”。
优缺点:优点是符合时间序列因果逻辑,动作连贯,且能很好处理“多解”问题(每一步可输出概率分布供采样)。缺点是会产生误差累积(Error Accumulation),“一步错,步步错”,且由于必须串行计算,生成速度较慢。
Diffusion(扩散模型):核心思路是“整体打磨”的迭代去噪,是目前最前沿且备受理想、小米等追捧的方案。它在路面上生成随机毫无逻辑的“噪音轨迹”,然后结合环境特征,在多个步骤中一点一点地修正,像雕刻一样把粗糙的石头削去多余部分,最后呈现完美的轨迹。
优缺点:优点是完美解决“多解”博弈(能同时雕刻出截然不同但都合理的轨迹并挑出最好的),且生成的轨迹平顺、极具人类质感,能很好满足车辆动力学约束等物理规律。缺点是计算量大,需要反复迭代,通常需要采用并行解码(Parallel Decoding)等技术进行加速以实现上车。
总结
有了这种端到端的算法模块组合,从传感器的输入进来的信息,都会被编码成Token在各个模块中进行传递,这样尽最大化的减少人为的信息传递筛选,之后被编码成为动作执行。
而,训练过程也更加简单了,直接将数据喂给模型训练,模型根据数据形成所谓的模型参数量,参数量可以简单理解成“知识”量,知识量更多更细那么对应的模型理论上就越好,要承载更大的参数量那么必须更大的算力芯片。
所以,端到端算法的构建完成,必定会卷模型参数量,卷芯片算力,卷模型应用创新度比如说世界模型、VLA等。
最后,其实算法是自动驾驶重要的工具,但是自动驾驶产品却是与大家应用场景交互深刻的地方,有对自动驾驶产品感兴趣的朋友可以点击Vehicle联合机械工业出版出品的《自动驾驶产品经理》一书,详细介绍自动驾驶产品。
参考资料以及图片
VLA World Model for Autonomous Driving pdf- 大疆卓驭Xiaozhi Chen
UnleashingtheOmni-ParadigmforNext-GenAutonomousDriving with UnifiedVLAModels pdf - 理想汽车詹锟
Redefining the Boundaries of Autonomous Driving with Foundation Model pdf - 元戎曹通易
*未经准许严禁转载和摘录-
原文标题 : 智驾定型之战:一文看透自动驾驶“端到端”的底层逻辑与架构演进

