“防御性驾驶是我们训练中的核心目标,我一直强调:必须让AI学会害怕,这才是对安全真正的重视。”8月26日,在元戎启行VLA模型上市发布会上,元戎启行创始人、CEO周光强调,VLA的核心能力是思维链和长时序推理,而这能让系统较好地实现“防御性驾驶”。
这是元戎启行成立六年以来首次举办的发布会。在这场发布会上,元戎启行强调了其所具备的两项能力。一是VLA技术的防御性驾驶能力,以及其所代表的技术先进性;二是商业化能力,以及其所代表的量产新阶段。
其中,元戎启行对“防御性驾驶”标签的强调,不禁让人想起今年8月,小鹏汽车在介绍全场景VLA功能时,提及多个“防御性驾驶”功能。7月,理想汽车发布VLA司机大模型,指出其能够通过防御性驾驶带来更加安全的辅助驾驶体验。更早之前的6月,周光在“2025未来汽车先行者大会”上就透露,元戎启行的VLA模型主打“防御性驾驶”。
此前,在智驾行业中,不少观点视加塞等带有进攻性的驾驶动作为“灵活”的象征。基于此,“防御性驾驶”的标签较为独特。对一家锋芒毕露的年轻智驾公司而言,这似乎显得不够有“攻击力”。
但从技术逻辑上来看,防御性驾驶这一“VLA三剑客”不约而同的“标语”,正在开启智驾技术的下一轮竞速。周光表示,VLA模型的下限已经超过第一代端到端方案的上限。从市场层面来看,2025年以来,浮躁的智驾宣传受到管控,消费端对智驾安全性的需求明显提升。
而在详细介绍VLA模型之前,周光先介绍了元戎启行的商业化进度,这充分表明了其对商业化的重视。
“目前我们的量产车辆已接近10万台,这个数字在行业内属于第一梯队。”周光表示,截至目前,公司已获得超过10款车型的定点合作,预计第四季度交付量还将进一步提升。基于搭载VLA模型的DeepRoute IO 2.0平台,元戎启行已达成5个定点合作项目,首批量产车即将进入市场。
他还透露,目前15万元以上的车型都可以适配VLA模型,10万元级别的车型通过优化也有机会搭载。
伴随着元戎启行在技术、商业化层面双双突破瓶颈,这家多被外界冠以“技术极客”标签的年轻公司摩拳擦掌。防御性驾驶的能力,正在成为VLA最好的“进攻”标志。市场对VLA的认可度,又将决定元戎启行们能否在残酷竞争中占得先机。
01 以“守”为“攻” 打破第一代端到端瓶颈
元戎启行是最早在国内智驾领域提出VLA架构的企业之一。此前,其曾数次实现对先进技术的预判。在2023年初,其实现了无图方案。2024年,其率先实现了端到端辅助驾驶的量产。两次技术路线押宝的成功,为其积累了一定技术声量。
不过,前两次的技术变革带来的效果变化,实际上是让系统更灵活、更“激进”。比如,无图之后,没有高精地图覆盖的区域,也能实现智能驾驶;端到端上车之后,在复杂场景下,车辆表现得更灵活、拟人,不会呈现死板的“规则感”。
这也与部分消费者的观感相符。在社交媒体的用户反馈上,像“老司机”一样的“加塞”“快速变道”等大胆决策,以及其所代表的“进攻性”驾驶风格往往被视作“灵活性”的表现。
但这一次,元戎启行为何选择了看似效果更“保守”的防御性驾驶,来作为更先进的VLA模型的标签?
其实,死板、不灵活是外界对“防御性驾驶”的误区,实际上其在道路上攻守兼备。在行车过程中,“防御性驾驶”也是比“进攻性驾驶”更难的驾驶风格,需要更多预判,甚至预判别人的预判,从而保障安全,不出意外。
据周光介绍,面对空间遮挡,当前BEV或CNN端到端的逻辑是看不见等于不存在,但VLA模型却会在有盲区的情况下,推断可能有外卖小哥出现,并采取防御性策略。在右转或山路行驶时,系统会像人类一样减速、鸣笛,提示他人注意。
类比到体育赛事中,有种说法是 “防守赢得比赛,进攻赢得观众” 。观众追求感官冲击,进攻的主动突破、频繁射门等受到追捧。但进攻的同时兼顾防守,实时推理对方行动规划,合理分配注意力,其实更能决定比赛结果的“下限” 。不过,其价值却因被动、隐性而需结合局势才能被感知。
“预判”需要思考逻辑,需要推理决策。从技术角度来看,这为智驾系统带来了较大挑战。在周光看来,VLA是让系统具备推理能力的一个“解”。
VLA的种子,在2024年6月被埋下。彼时,周光乘坐测试车经过公司附近的一处红绿灯,一个交通牌提示"车辆左转不受灯控",测试车依旧停下等待红灯变绿。他开始意识到:人类司机能瞬间理解这类特殊场景,但即便是当时最接近人类驾驶能力的端到端模型,也因无法理解文字路牌未能通过。9月,VLA模型就被提升为公司级研发项目。
VLA的全称是Vision Lnguage Action Model,即视觉-语言-动作模型。周光介绍,从技术层面来说,VLA模型可以称为“基于GPT(基于Transformer的架构)的端到端模型”,这与传统的CNN(卷积神经网络)端到端模型有本质区别。
从效果上来看,相对CNN,GPT的主要优势是拥有更强的语义和逻辑推理能力,这对智驾的推理决策至关重要。用一个更易理解的比喻,人类在面对问题(比如“VLA模型是不是划时代的技术?”)时,绝大多数情况都需要用语言来形成思考逻辑,而很难用图片来思考问题的答案。

“VLA模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。”周光表示,长远来看,语言和推理能力是实现完全无人化自动驾驶的核心。
具体来看,元戎启行的VLA模型具备了四大基础功能:其一是空间语义理解,能还原复杂环境,尤其针对盲区场景;其二是异形障碍物识别,识别各类车辆和物体;其三是文字类引导牌识别,有效理解临时标志、道路文字,减少误判与违章;其四是记忆语音控车,支持“快一点/慢一点”等基础指令,还能记忆用户偏好。
搜狐汽车在体验元戎启行VLA模型的过程中发现,在经过桥洞、丁字路口等存在盲区的场景时,该系统基本都能够实现提前减速或停车观望,谨慎、丝滑地做出行驶决策。与此同时,其识别达到的道路文字、部分思维链也能以文字的形式呈现在车机屏幕上。
“目前,VLA模型的下限已经超过(第一代)端到端方案的上限。”周光表示,第一代端到端系统正逐渐触及性能瓶颈。当前以CNN为载体的模型,无论用多少数据或额外训练手段,其提升空间已非常有限。
综合来看,VLA最突出的优势,表现在优秀的推理、预判能力,而推理思维链最直接的体现,又在于“防御性驾驶”能力上。对元戎启行VLA模型而言,“防御性”的驾驶,实际上是一次进阶的技术进攻。
02 技术与商业平衡
除了技术先进性,发布会上,元戎启行还主动展现出了此前很少表现在大众眼前的务实。最显著的特征就是,其在VLA模型上展现出了强大的兼容性。

第一个兼容是对不同感知硬件方案的兼容。与一些业内旗帜鲜明地支持纯视觉或融合感知方案的公司不同,其搭载VLA模型的DeepRoute IO 2.0平台同时支持激光雷达融合感知方案和纯视觉方案。
“短期来看,激光雷达受限于技术发展和数据集的成熟度,仍有其价值;长期来看,大模型有望逐步解决现在依赖激光雷达的部分任务。”周光表示,激光雷达目前对通用障碍物识别仍有重要作用,但随着大模型技术的发展,视觉会在感知中扮演越来越重要的角色。
第二个兼容是对车端多芯片平台的兼容。VLA模型的研发和训练与车端芯片无关,但在训练完成后会在车端部署适配。目前,海外大厂如英伟达、高通,国内芯片公司如地平线、黑芝麻等芯片均在车企打造产品的选择范围内。能够兼容多芯片平台,意味着能够拥抱更广阔的潜在用户,同时也会增加工程部署的工作量
“芯片适配有一定要求,比如基础算力、带宽等。模型训练完成后会经过蒸馏和量化,适配需要满足基本条件。合作中车厂可以提出芯片需求,适配成本(时间、资金、数据)都是可协商的。我们目前以某款芯片为起点,未来会支持更多芯片,并不局限于一家。”周光说。
第三个兼容是价格上的兼容。感知硬件、芯片占据了很大一部分智驾系统部署的成本,能够兼容不同的方案,就让元戎启行VLA模型有了更大的范围空间。周光透露,目前15万元以上的车型都可以适配VLA模型,10万元级别的车型通过优化也有机会搭载。
此前,元戎启行量产车型如、、坦克500的价位,多数在30万级以上,战略合作伙伴smart也定位中高端。进入15万级甚至可能进入10万级的车型价格地带,意味着元戎启行VLA将进入中国汽车市场的腹部,逐渐进入走量、平摊成本并持续投入研发的良性循环。
不过,挑战仍然存在。虽然目前,Momenta、卓驭等多家智驾厂商并未在技术先进性上展现突出特点,但相对而言在客户数量、总体规模和交付量上有一定优势。并且,要在更低的价格地带做好智驾,布局成本可能遭受较大考验。在汽车行业内卷尚未彻底停歇、主机厂仍处于高度紧张竞争状态的情况下,需要较大算力的VLA模型面临一些成本挑战。
而面对汽车产业链的整体困局,元戎启行和周光抱有长期主义式的态度。
“行业整体面临挑战,尤其随规模扩大,对产品体系要求更高。需始终保持敬畏之心。良性竞争有利于行业发展。”“宣传需理性,避免过度承诺,尤其在安全方面。技术发展需时间,需正确引导用户预期。监管与行业自律也很重要。”从“防御性驾驶”到“理性宣传”再到“良性竞争”,周光没有像特斯拉创始人、CEO马斯克一样极端地推崇技术,而是更多回归了理性。
在技术进攻与防御驾驶之间,在理性竞争与感性市场之间,元戎启行迈入新阶段,也正迎接市场的检阅、友商的挑战。