理想中的虚拟现实体验,头尾未尽的旅程与可能的结局

访客 新能源 2.2W+
理想中的虚拟现实(VLM)技术拥有无限的可能性和可能,但最终可能不会像我们想象的那样完美。虽然它的首尾能够互相连接,但这种连接可能会导致一些问题,比如交互不流畅或者用户体验下降。理想中的VLM应该更加注重用户体验和稳定性,以便为用户提供更好的使用体验。

理想中的虚拟现实体验,头尾未尽的旅程与可能的结局

7 月 15 日,理想汽车正式向 AD Max 用户全量推送无图 NOA,成为继华为系之后第二家完成全量推送的车企。这次推送将覆盖理想的 5 个车型、超过 24 万用户。没有地图NOA落地,给理想和理想的用户甚至投资者吃了一颗定心丸。

在之前的智能驾驶大会上,理想发布了端到端+VLM(视觉语言模型)+正在开发中的世界模型的第三代技术架构。

与现有的端到端技术路线相比,理想的亮点在于提出了“双系统”的概念,首次将VLM部署到Orin-X芯片上,并选择了更激进的目标,即一模端到端。

去年下半年,Ideal开始在团队内部孵化,开始了预研端到端+VLM的技术架构。理想智能驾驶副总裁郎咸鹏表示,目前已完成技术架构的原型验证和实车部署,“实际上车效果超出了我们的预期。”

前不久,CEO李想在重庆论坛上透露,理想的端到端+VLM技术架构最早在今年年底,最晚在明年年初推出。这是一个相当激进的提法。

大会结束后,雷锋。com的“新智能驱动”与一些智能驱动圈的从业者交流,从他们的角度评价了理想的端到端+VLM技术架构。

明年初有没有可能有一款车型上车?

自动驾驶端到端热潮由特斯拉掀起,FSD V12展现的超高容量极限让国内自动驾驶玩家看到了确定性,形成了新一轮的竞争中心。

智能驾驶自研中后期布局的理想也投入了端到端的努力。在无图NOA的基础上,Ideal正在部署第三代架构——基于一模端到端模型、VLM和世界模型的全新自动驾驶技术架构。

理想的第三代架构参考了丹尼尔·卡内曼的思路,快和慢,也分为系统1和系统2,模拟人类的驾驶行为。两个快慢系统各占一个NVIDIA Orin-X芯片。

系统1,fast系统,由一个模型端到端的大模型组成——感知和规划集成到一个大模型中。输入传感器的信息后,直接输出行驶轨迹,完全由数据驱动,可以应对95%的驾驶场景。

理想中的虚拟现实体验,头尾未尽的旅程与可能的结局

从目前业内披露的信息来看,理想系统 1 的 One Model 端到端架构相当激进。以华为和小鹏为例,这两家公司的端到端架构主要分为感知模型和监管模型两大块,并不是理想的“一步到位”。

由于对“端到端”的理解和定义不同,不同玩家所展示的“端到端”模型也不同。

根据陈涛资本发布的《端到端自动驾驶行业研究报告》,端到端的核心定义是感知信息的无损传输,可以实现自动驾驶系统的全局优化。

传统自动驾驶模型向端到端的演进将经历感知“端到端”、决策规划建模、模块化端到端、一个模型端到端四个阶段。

目前业内大部分玩家已经通过“BEV+transformer”架构完成了“端到端”的感知,正在尝试实现决策规划的建模。

在决策规划的建模阶段,基于感知“端到端”地将从预测到决策再到规划的功能模块整合到同一个神经网络中,以深度学习取代基于规则,可以提高决策规划的上限,以应对复杂场景。

但现阶段从感知到决策规划的接口信息仍然需要人工定义,感知信息仍然丢失,两个模型独立训练,并不是真正的“端到端”。

直到进入第三阶段,也就是模块化的端到端,才能称之为“端到端”。在这个阶段,虽然分为感知和调控两部分,但是感知和调控的接口不再基于人工定义,保证了信息的完整性。

另外,两个模块之间通过梯度传导进行整体训练,可以达到全局优化的效果。

《报告》认为,已经或接近量产的解决方案仍处于决策规划的建模阶段,距离模块化端到端或一个车型端到端自动驾驶量产还有距离。预计模块化端到端将于2025年开始。上车吧。

虽然各家的口号都很响亮,但是要走向第二阶段,并不容易。

一家智能驾驶公司的创始人杨贺告诉雷锋网。com认为简单地“端到端”地进行调控是不现实的(也就是对决策规划进行建模)。如果有错误,很难保证收集多少数据来纠正它。R&D迭代和OTA量产没有保证,所以必须用规则来覆盖端到端的监管。

蔚来智能驾驶R&D副总裁任邵青在接受王诜采访时也表达了自己的立场。如今,业内已经完成监管建模的企业寥寥无几。

任认为,做一个端到端的大模型的前提是,智加的所有功能模块都已经被一个具有足够性能和效率的工程系统建模和支持。没有办法建模是因为工程系统支持不了,比如需要有能力快速训练一个模型,快速验证。

“你得有一些基本能力,这个(端到端大模型)才有用,否则就是毒药。”

所以蔚来走的是渐进式的端到端路线,一个一个模块的完成“端到端”。7月11日,蔚来发布了“端到端”AEB,声称“端到端”的应用将AEB的场景覆盖提升了5倍,而虚警率几乎没有增加。

根据Ideal官方介绍,NOA已经将感知和规划整合到一个模型中,也就是说,Ideal已经完成了这个阶段决策规划的建模。

最理想的是最迟在明年年初实现最终的一个模型端到端,已经超越了行业的整体进度。

算法、算力、数据是自动驾驶的三大基础。自动驾驶端到端的数据驱动特性,对计算能力、数据等基础设施提出了更高的要求。相比特斯拉在计算能力和数据上的“端到端”资源,中国还有很大差距。

在计算能力方面,根据“汽车之心”的统计,预计到2024年10月,特斯拉的DOJO智能计算中心将达到10万PFLOPS,相当于约30万片英伟达A100的总计算能力。目前比较理想的计算能力储备是2400PFLOPS,在国内属于头部。

数据层面的差距也很突出。杨贺向雷锋提到。com的“新智能驱动”认为,特斯拉每天在线运行的汽车数量为200万辆,这在中国是难以企及的。

一家智能驾驶公司的高管曾对雷锋网说。com的“新智能驾驶”即特斯拉从早年的L2功能到高速导航开始引入基于学习的调控,并以此为基础做端到端,就在它的保有量达到一百万辆左右的时候。

“只有当你有了这么大的数据量,你才能使用相应的方法。当你没有那么多数据时,这种方法根本行不通。”

位居新势力榜第一的理想,在这方面与国内同行相比有着不小的优势。

截至今年6月,理想的车辆数量已经超过80万辆。在相当数量的保有量中,只有3%的符合专车司机标准的用户被理想地筛选出来,这些用户的数据被输入到模型中。目前,端到端模型已经学习了超过100万公里的数据,到年底可能会超过500万公里。

计算能力和数据都比不上特斯拉,国内端游玩家选择开辟一条和特斯拉不完全一样的路线。

VLM是加速端到端登机的好方法吗?

理想的技术路线是在端到端的一个模型之外增加一个基于VLM的系统2,辅助系统1处理剩下的5%特殊场景。

VLM是LLM(大型语言模型)的高级版本。除了处理文本,VLM还可以处理视觉输入和了解场景,这在之前的具身智能领域已经有所探索。

Ideal是中国第一家公开将VLM概念引入自动驾驶的汽车公司。但事实上,VLM在自动驾驶领域的应用可以追溯到更早。

今年5月,获得10.5亿美元融资的英国科技公司Wayve在2003年9月发布了基于VLAM的LINGO系列首款模型,将自然语言引入自动驾驶,让自动驾驶系统解释其决策逻辑,从而提高模型的可解释性。

“大语言模型收集语料,通过前期训练有默会知识,包含常识性的东西,有一定的思考和退缩能力。”

某车企智能驾驶模块负责人徐智告诉雷锋网。com认为,VLM的这些明显优势可以在理论上帮助解决长尾问题,这也是为什么业界应该尝试将大语言模型引入自动驾驶,甚至提出用大语言模型取代传统的控制算法。

今年5月,小鹏声称已经量产的端到端大模型实际上使用了大语言模型。小鹏的端到端由三部分组成:XNet、XPlanner和XBrain。其中,大语言模型XBrain可以提供系统的泛化能力,处理复杂甚至未知的场景。

理想地,基于VLM的系统2可以提供理解复杂环境、阅读导航地图和理解交通规则的能力。

例如,当系统2识别出崎岖不平的路面或光线较差的道路环境时,它会提醒驾驶员和系统,并适当减速。

系统2还可以了解潮汐车道、公交专用道等交通运行规则,知道什么时候该开哪条车道,给系统1指导和建议。通过读取导航信息,系统2还可以确定系统1是否选择了错误的路径,并实时规划新的路径。

郎咸鹏说,“系统2的作用相当于我们的副驾永远是驾校教练。这个教练会一直监督你的行为。当你开错车道或者需要帮助的时候,它会主动提供一些建议,让你更好地驾驶这辆车。”

但是,从“纸上谈兵”到量产,现实很“骨感”。车辆端的计算能力有限,很难在末端部署VLM这样超过10亿参数的大型模型,这是落地最明显的问题。

Ideal是第一家将VLM部署到Orin-X芯片的企业。理想的VLM有22亿个参数。为了在车端芯片上部署如此庞大的模型,Ideal做了很多尝试,并与英伟达合作,最终将推理性能从4秒降低到0.3秒。

理想中的虚拟现实体验,头尾未尽的旅程与可能的结局

不止一位自动驾驶业者认为,理想对于 VLM 模型在车端芯片上运行的时延问题,优化得比想象中要更好。“学术界一直在探索VLM。在工程上,令人震惊的是,理想可以将延迟从4秒降低到0.3秒,这意味着VLM已经开始实用化。”许志说。

但是,0.3秒的延迟也意味着,理想的VLM只能扮演一个非实时的监督者,提供协助。如果要像系统1一样承担主线任务,延迟要达到30 ~ 50毫秒才算合格。

视觉算法工程师Merle表示,理想系统2由于时间延迟,实际上无法处理突发的拐点情况,VLM的功能主要在规划层面。

“实时感知和规划会丢失更多的历史信息,但VLM跑得慢,可以积累更长的历史信息,可以给出更多的场景信息,帮助规划收敛到更合适的路线。”

据介绍,理想的VLM使用流式视觉编码器,可以缓存比大多数单帧VLM更长的视觉时间序列。同时,Ideal还设计了一个内存模块来缓存多帧历史信息,从而更好的表现超长时间序列的推理问题,解决超长时间序列的推理延迟。

理想中的虚拟现实体验,头尾未尽的旅程与可能的结局

理想基于 VLM 的系统 2,相当于给系统 1 上了一个 " 外挂 "。Merle认为“端到端大模式能上车还有很长的路要走。如果优化效果没有达到一定程度,车企是不敢贸然上车的。这时候有一个外部系统至少让车企更有信心,加速端到端的上车,是一个很好的尝试。”

理想的双系统技术架构是否会在业界掀起一股跟风浪潮?

Merle认为“毫无疑问VLM可以发挥作用,但业界真正关心的是VLM花费的计算能力和实现的功能之间的投入收益比,这也是各家跟进的决定性因素。”

另一方面,“特斯拉的道路已经证明,一个好的司机不需要教练。”

VLM的赋能最终能为理想的端到端提供多少帮助,在正式量产之前很难确定。

最近,许志正在研究VLM模型在机器人领域的应用。他说,用VLM控制机械臂,从目前的研究来看,即使是特殊的简单场景,比如执行指令把物品放到桌子上,如果机械臂经过VLA优化和模仿学习,成功率也有80%。如果不优化,成功率只有不到30%。

“这个概率对于自动驾驶来说是不可接受的,现阶段使用VLM其实相当困难。”

目前端到端技术路线尚未收敛,理想的双系统架构是创新探索之一。

以前魏晓理的三个学校中,Ideal在自动驾驶方面的投入相对保守。去年理想开始大力扩招,追赶进度。今年第一季度,R&D投资额达到30亿元,同比增长64.6%。理想正以更加积极的姿态加入这场比赛。

标签: 端到 模型 理想

抱歉,评论功能暂时关闭!