尽管李想未出席此次发布会,但其展现出的理想汽车硬核实力不容小觑。
随着特斯拉FSD(完全自动驾驶)加快进入中国市场的步伐,各大车企纷纷响应,积极推出各自的端到端大模型方案。
在2024中国汽车重庆论坛上,理想汽车董事长兼CEO李想于6月宣称,理想汽车将在今年三季度推出无图NOA(自动辅助导航驾驶),最早于今年年底,最晚在明年年初,会推出依托理想自研大模型和VLM视觉模型的L3级自动驾驶系统。并且,伴随这套技术的发展、算力的提升以及模型的扩大,无监督的L4级别自动驾驶在至少三年内必定能够实现。
7月5日,理想汽车举行了理想 2024 智能驾驶夏季发布会。此次发布会李想并未现身,而是由三位技术专家阐述了理想智能驾驶的现状与未来。
在发布会上,他们通过对话的形式,展示了最新的端到端+VLM双系统智能驾驶模型,借由世界模型的学习与对环境的思考,该系统将推动自动驾驶技术的快速迭代。
首批推送OTA 6.0版本的,是AD Max用户 | 图片来源:理想汽车
同时,理想推出的OTA 6.0版本智能驾驶升级,将引入无需高清地图的NOA功能,并涵盖理想MEGA和理想L9、L8、L7、L6的AD Max车型,使超过24万名用户受益,实现全国范围内的智能驾驶体验。
当下,众多厂商都在追求「端到端」,而理想汽车则是首个公开技术方案的车企。那么,理想的「端到端」方案究竟有何独特之处呢?
「紧跟」特斯拉
作为自动驾驶领域的标杆企业,特斯拉的技术路径一直备受瞩目。自2023年5月,伊隆·马斯克首次公开提及「特斯拉FSD v12是一个端到端AI」,至2024年3月,特斯拉开始大规模推送v12版本,特斯拉端到端技术的不断进步,也见证了中国自动驾驶行业逐渐形成共识的过程。
尽管行业内对端到端的发展趋势已达成普遍共识,但在具体技术路线上的分歧依然存在。例如,「模块化端到端」采用监督学习的训练方式,而「单模型端到端」可能更倾向于自回归和生成式的训练方法。
理想此次公布的自动驾驶方案,与Momenta的双系统模式有些类似。其理论依据是诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考,快与慢》理论,其中提到了认知心理学中系统1与系统2的概念。系统1是基于人们过往经验和习惯形成的直觉,能够迅速做出决策。系统2则代表着思维推理的能力,在面对复杂问题和未知场景时,人们需要通过思考、推理来解决。总之,系统1和系统2相互协作,构成了人类认知、理解世界以及做出决策的基础。
理想自动驾驶系统1的演进路径 | 图片来源:理想
具体到理想汽车的自动驾驶技术架构,主要通过三个部分来实现:系统1由端到端模型(E2E)达成,主要用于快速应对常规驾驶问题。这个系统历经了三个阶段:
- 采用模块化设计,包含感知、定位、规划、导航、NPN,支持了100个城市的NOA。
- 进入无图模式。仅保留感知和规划两个模型,最大的改变是去除了NPN,不再依赖先验信息。
- 类似于特斯拉的One Model的端到端模型,仅有一个模型,输入为传感器信息,输出为行驶轨迹。
理想智能驾驶系统2的技术架构图 | 图片来源:理想
系统2为视觉语言模型(VLM),拥有处理复杂场景的能力。它由Transformer模型构成,将提示词(Prompt)文本进行分词编码,并将摄像头图像和导航地图信息一同传输给模型进行自回归推理。系统2的输出涵盖环境理解、驾驶决策和驾驶轨迹,随后传递给系统1以控制车辆。
与多数单帧的VLM模型不同,理想设计了流式视频编码器,能够缓存更长久的视觉信息。此外,系统还增添了记忆模块(Memory bank),可以缓存多帧历史信息,从而解决长时间序列推理时延的问题。
可以这样理解,系统2仿佛一位智能导航和决策专家,它不但能够看清当前的路况和环境(摄像头图像),还能够依据地图信息和用户的指令(Prompt文本)来进行决策和规划行车路线。
与此同时,理想汽车介绍了端到端方案的测试与验证方法。通常来说,业内主流的做法是通过3D虚拟环境、重建仿真、生成仿真等进行仿真测试。理想则将重建仿真和生成仿真两种技术路径相结合。
可以用一个比方来解释:假设你在准备一场考试,有两种题型需要练习:真题和模拟题。真题是过去考试中实际出现过的问题,模拟题则是根据考试大纲编写的新题目。真题能让你熟悉考试的风格和类型,而模拟题可以帮助你应对可能出现的新情况。
理想的测试方法与这个准备过程类似。他们首先运用3D高斯溅射(3DGS)技术,如同真题一般重建真实场景,然后利用生成模型,恰似模拟题一样补充新的视角。如此一来,他们创建的测试环境既真实又多样,能够更全面地评估自动驾驶系统的表现。
此外,他们采用了动静态分离的策略,就像分别练习不同类型的题目:静态部分是环境重建,动态部分则是对动态物体进行重建和生成新视角。通过这种方式,他们构建了一个360°可编辑的3D物理世界,能够模拟各种不同的驾驶条件,例如天气变化、时间差异、车流量等,以全面测试自动驾驶系统的适应能力。
开城大战持续进行
除了自动驾驶新架构,理想汽车还发布了OTA 6.0版本的智能驾驶升级,带来了无需高清地图支持的NOA功能。此次升级将覆盖理想MEGA以及理想L9、L8、L7、L6的ADMax车型,使理想的超过24万名用户受益。
在2023年,中国智能驾驶行业的焦点汇聚在「城市NOA开城大战」上。当下,华为和小鹏已经推出了无需高清地图的高阶驾驶辅助功能,蔚来也推出了全域领航辅助NOP+城区功能。
理想无图NOA的推送节奏 | 图片来源:理想汽车
此次,理想也紧紧跟随。据了解,理想汽车最新推出的无图NOA(导航辅助驾驶)功能不但可以在城市和城镇中行驶,还能够适应二级道路。相较于之前的版本,新版无图NOA在BEV(鸟瞰视图)、感知能力、规控能力以及整体系统能力上都实现了全面提升,能够应对更为复杂的行驶环境。
在发布会上,理想汽车剖析了无图NOA的四大核心能力,其中最值得关注的是前两项:
- 随处可开。无图NOA无需依赖大量的「先验信息」。理想汽车的智能驾驶系统中有众多「小机器人」在运行,尽管部分「小机器人」可能仍需要一些先验信息,但整体能力的提升,使得系统能够更为灵活地应对各种路面状况,而无需事先进行验证。
- 绕行顺畅。该能力融合了时间和空间的双重规划。在实际驾驶中,常常会遭遇车辆或行人阻碍通行的情况。此时,「绕行顺畅」能力就显得尤为关键。其背后的时空联合能力,能够同步规划横纵(前后左右)的空间,并持续预测自车与他车之间的空间交互关系。通过规划出「未来一段时间内」的所有可行驶轨迹,筛选出最优、最高效的行驶路径。
除此之外,理想汽车还对AEB(自动紧急制动)和AES(自动紧急转向)进行了多项优化。在日常生活中的低速场景,特别是在地库停车等复杂环境中,用户可能会碰到柱子、墩子等障碍物。理想汽车的低速AEB能够在这类情况下自动刹车停住,避免刮擦,减少用户的困扰。
在高速行驶时,如果前车突然急刹车并避让,而当前车辆与前车距离过近,无法及时刹停,理想汽车的AES功能会自动减速并紧急转向避让。这个功能在「消失的前车」场景中尤为重要,能够显著提高行车安全。
目前,端到端自动驾驶已成为行业的共识。华为、小鹏、元戎启行、商汤绝影、零一汽车等主机厂和智能驾驶技术公司纷纷涉足这一领域,并在近半年陆续披露了上车量产规划。
然而,端到端技术并非一项“一劳永逸”的技术,它需要一整套支持系统才能真正发挥效用。以特斯拉为例,尽管其他公司也在运用端到端技术,但效果却不如特斯拉理想。特斯拉的成功不仅在于采用了端到端技术,还在于他们在每个细节上都做到了极致。不过,对于在智能驾驶布局上相对较晚的理想汽车而言,端到端技术使其拥有了追赶的机遇。