摘要
部分公司着手打造智能车的“大脑”。
“一家成功的智能电动汽车企业,必定是一家成功的 AI 公司。”
此言论在汽车领域近两年颇为流行,蔚来 CEO 李斌近期也曾提及。如今,李斌常以自媒体人身份示人,意在让更多人了解真实的蔚来,避免因“服务好”的标签而忽视其技术实力。他强调:“创新才是蔚来的本色。”
有类似观点的并非蔚来一家。以往,各汽车公司都有各自的特色标签,如操控感、豪华感、动力感、经济性等。然而当下,众多车企达成新共识:为自己贴上 AI 的标签。
李斌和秦力洪分享蔚来在科技创新领域的最新思考 | 图片来源:极客公园使汽车更加智能化,是首要关键问题,也是车企现阶段需尽快向用户展现的重要能力。
但“变聪明”这一表述,本身难以进行量化。怎样才算一台聪明的机器呢?OpenAI 的首席技术官 Mira Murati 曾在一档播客节目中,以人类智力水平类比 AI 模型的能力:GPT - 4 相当于聪慧的高中生,而 GPT - 5 有望达到博士的水准。
此种说法虽易于理解,但难以直接应用于汽车。相较于大模型本身,智能汽车作为庞大的智能硬件载体,不仅需要具备“智力”以理解问题,还需通过具体的“能力”来解决问题。
倘若将智能汽车视作机器人,那么在这个“人”变聪明的过程中,需要一个“聪慧的大脑”——不仅要拥有模型本身的智力,还需负责为“身体”制定一套合理的任务管理与分配体系,以明确不同“器官”在不同时刻应按照何种优先级处理一系列不同任务。
例如,主动悬架是近两年颇为热门的新功能,其核心在于依据记忆和计算,在车辆行驶过程中对悬架参数进行调整,以应对不同路面的颠簸状况,从而提供更优质的驾乘体验。这涉及到底盘、智驾等不同领域的协作。若缺乏统一的大脑协调,由于带宽、延时等技术问题,协作容易出现不协调的情况,无法达到预期的体验效果。
7 月 27 日,在 2024 NIO IN 蔚来创新科技日上,蔚来推出了“整车大脑”——整车全域操作系统 SkyOS。这体现了蔚来对 AI 时代的思考:据介绍,基于该系统,在跨域任务执行、算力分配等方面能够提供更良好的体验。
而这一系列努力皆为了同一个目标:让智能汽车变得更加聪慧。
世界模型,让智驾“会推理”
智能驾驶是 AI 在汽车上备受关注的应用场景,也是近年来技术路线变化最为迅速的领域之一。
过去数年,智能驾驶经历了多次技术路线的更迭,既有从高精地图方案转向无图模式,也有以特斯拉为代表的部分公司尝试纯视觉(去除激光雷达)路线。
然而,这些路线的转变,本质上是为了降低成本,并未改变智能驾驶“规则驱动”的本质。该系统仍需大量程序员耗费精力编写代码、修复漏洞。换言之,这只是人类通过编程语言,将自身对驾驶的认知传递给机器的过程,智能驾驶系统本身并未产生真正的智能。
端到端技术的出现,改变了这一规则。规则驱动正在向数据驱动演进,人类试图在大语言模型领域已被验证成功的 Scalling Law 基础上,通过投喂大量视频数据,将智能驾驶系统训练成一个能够涌现出智能的神经网络大模型。
这种模式的理想结果,是马斯克所描述的人类驾驶思考模式,即:输入视频(所见的路面信息),输出控制(踏板及方向控制)。
端到端的智能驾驶架构图 | 图片来源:蔚来
依据“AI 三大基石”的理论,要实现这一目标,需解决算力、算法、数据三大关键问题。
蔚来在数据方面采用了“群体智能”的方式,即:基于大量预装高算力、高配感知硬件的量产车获取大量真实数据。据介绍,
算力则更多地是一个外部问题,并非由车企自身所能决定。
因此,下一阶段的重点在于从算法本身出发,提升模型自身的训练效率和推理能力。蔚来给出的下一个答案是:世界模型(Nio World Model,以下简称 NWM)。
可以将 NWM 视为 Sora 的一种变体,在某种程度上也是一个视频生成的产品。略有不同的是,Sora 主要基于“文生视频”,而蔚来的世界模型则是一种“视频生视频”:根据官方介绍,NWM 能够将 3 秒钟的真实驾驶视频作为提示词,生成最长达 120 秒的视频。
蔚来将 NWM 的职责描述为“推演万千平行世界” | 图片来源:蔚来
但视频生成显然并非蔚来的目的,蔚来也并非要用 NWM 生成的视频作为训练数据。
依然以人类的思维模式作比喻:在一名人类司机选择超车之前,他会根据实时路况判断左右不同的变道路线以及选择不同的超车时机。这一决策和推理的过程,NWM 通过一段生成的视频,具象地呈现了出来。
根据官方介绍,NWM 能够在 100 毫秒内推演 216 种可能发生的场景,并找到最优解。
因此,NWM 的出现,实际上是通过生成式 AI 这条技术路线,为智能驾驶系统在新工作方式(端到端)下变得更加聪慧找到了新的路径。
挖掘座舱内的“人情味儿”
AI 在汽车上的另一个深度应用场景为智能座舱。
倘若您曾分别体验过一辆“传统汽车”和一辆“优秀的智能汽车”,想必不会认为智能座舱中的诸多功能只是花架子。笔者始终认为,在驾驶过程中,最为安全的人车交互方式应当是通过语音——这样能够确保您的视线和双手持续专注于驾驶操作。
可以说,在座舱智能化方面,具有互联网基因的造车新势力们显然已领先于许多传统车企。
如今,当 AI 浪潮来袭时,它们面临着下一个抉择,正如前阿里董事会主席张勇所言:
运用 AI 的方法,将所有产品重新打造一遍。
蔚来希望用 AI 重新定义人车交互的范式 | 图片来源:蔚来
就当前而言,蔚来基本将市面上主流的 AI 软硬件玩法都引入到了车上。
例如 AI + 音乐,通过 AI 加持的音质算法优化,为缺乏全景声的音源进行提升,再利用车机自带的硬件进行播放。
在 AI 的助力下,停车守卫功能变成了类似视频会议纪要的产品。AI 会筛选出值得关注的重点瞬间,若在停车时不幸遭遇剐蹭等情况,该产品可成为一个提高效率的工具。
还有即将推出的旅行回忆功能。发布会现场展示了一段自驾游后,根据车载摄像头捕捉的沿途风景自动剪辑生成的 vlog,其中还对一些标志性山峰进行了地点标注。类似的 AI 剪辑功能,以往在运动相机等场景中有过应用,如今蔚来也将其应用到了车内。
此外,蔚来此次还展示了 NOMI 在多模态能力加持下的进化:能够看到“嘘”的手势,自动降低音量;也能够根据不同环境,表达恰如其分的情感关怀。
蔚来用“情感智能”描述了 AI 在座舱领域的进化。但在笔者看来,这些单一功能在 AI 本身的能力上并未有十分巨大的突破,反而是想到这些实际应用场景,并将其落地到车上的决策值得关注。在座舱领域,或许目前应用场景的挖掘先于模型能力的进化。
7 月 27 日晚,结束媒体采访的李斌几乎未作停歇,便又投入到了一场线上直播中。与过往多次在网上发声时一样,他遇到了一些或尴尬或尖锐的问题,他选择直接读出:
“别整天整抖音了,用心管理公司吧。”
李斌笑着解释这仅是他的第 5 次直播。但正如那些被融入智能座舱中,或许当前使用率尚不高的小巧思一样,他认为蔚来在创新方面的思考和努力需要向大家介绍,“不然大家每天都说蔚来服务好,就好像我们技术不行似的。”
所幸,这样的表达获得了许多正面的反馈。李斌在媒体沟通会上自嘲道,以前大家说因为一个人(指李斌自己)不买一辆车,现在也有很多人说要为了一个人买一辆车,他很高兴自己能做到这一点。
一旁的秦力洪补充道:以前大家最期待的是年底的 NIO DAY(蔚来日,蔚来车主的盛大活动),我们希望今后蔚来 NIO IN 能够成为媒体和车主最为喜爱的活动。
期待这一天能够早日到来。