智驾程序员或先于出租司机被 AI 冲击饭碗

访客 新能源 41

摘要

智能驾驶的“GPT 时刻”是否已然降临?

每项崭新技术的诞生与推广,皆会历经多样的阶段,亦会遭遇各类不同的声音。研发者为寻求技术的最优解,或许会舍弃多年的努力成果;而商业机构则更着重于判别技术落地的契机,以期在恰当之时谋取最大化的利益。

就智能驾驶而言,国内的各主机厂商曾存在深刻的认知分歧。支持者坚信其能带来“遥遥领先”的体验,而反对者则以“臭搞技术的”、“自动驾驶都是忽悠”等言论表达不屑。

步入 2024 年,随着基于“端到端”的特斯拉智能驾驶软件 FSD V12 版本正式推送,中国汽车厂商对智能驾驶的态度,总算开始趋于一致。

以新势力造车的代表蔚小理为例,各家对于“端到端”技术的追逐已然明显发力。

小鹏宣称将端到端的大模型引入智驾系统,并表明今年要在智能化与训练数据上投入 42 亿元,目标是实现“两天一次内部 OTA”。此般效率提升,是过去依靠人类维护数十万行智能驾驶代码的工作模式所难以企及的。

蔚来近期对智能驾驶研发部进行了重组,将传统的感知和规模团队合并为大模型团队,核心旨在推动基于神经网络的范式迭代。

就连往昔被戏称为“抠厂”的理想,近期也频繁为智能化研发造势。CEO 李想亲自为“端到端”研发站台,搬出诺贝尔经济学家的快慢思考理论,以表明自家团队找到了化解自动驾驶 conner case 的方向。

那么,使各家厂商从分歧走向共识的端到端,究竟具备何种强大魔力?它如何变革了智能驾驶行业的范式,又将带来怎样的机遇与调整?

 

智能驾驶的 GPT 时刻已然来临

国内各厂商迅速达成共识的关键原因,是特斯拉率先呈上了一份令人艳羡的端到端答卷。

今年 3 月,特斯拉正式推送智能驾驶软件 FSD V12.3 版本。此版本的最大变革,是将整个智驾系统运作的动力,从人类编写的代码,转换为基于神经网络的 AI 大模型。马斯克以“Video in to Control out”来描述这一新的工作范式,即:AI 依据自身“所见”的路面信息,直接输出驾驶操作,这便是业界所称的“端到端”(End-to-End)。

上月,何小鹏在加州体验了 FSD V12.3.6 版本。用他的话来讲,FSD“诸多路况处理都极为顺畅”。这正是 AI 神经网络相较代码驱动的显著优势所在:在不同城市、各异路况下,大幅增强智驾系统的泛化学习能力。

若转化为国内消费者更为熟悉的广告营销话术,便是:全国(全球)皆可畅行。

华为在去年 9 月喊出“全国都能开”的宣传语 | 来源:极客公园

诚然,此结论在当下仅是一个美好的愿景。在实际操作中,仍需数据、算法、算力等 AI 基础设施的全力支撑与训练,才有望接近“AI 变得与人类驾驶员同样聪慧”的目标。

然而,对于同行而言,FSD V12 版本意义非凡。它证实了神经网络确实能够取代人类编写的代码,甚至能够做得更为出色且高效。

这意味着无需再漫长等待,智能驾驶行业中的 ChatGPT 时刻实际上已经到来。回想阿里张勇曾说过的话:所有软件都值得用 AI 重新打造一遍。FSD V12 正为同行提供了一个新的方向与信心:所有智驾的技术栈,都能够以端到端的方式重新构建。

在 FSD V12 beta 版本发布时,马斯克曾提及,此版本将前一版本的 30 万行代码压缩至 2000 行,相当于不足百分之一的水平。

新技术栈中的智驾竞争,不会演变成比拼人力数量的反创新内卷游戏。倘若 AI 的效率真能达到何小鹏所说的两天一次内部 OTA,那么逐条编写规则、修改 bug 的人海战术便可以宣告彻底过时。

那么,智驾行业是否还需要如此众多的程序员呢?笔者难以给出确切答案,但可以确定的是,智驾程序员的工作内容将会发生一系列的变化。那些仅仅会写 if else 规则的程序员,大概率会比出租车、网约车司机更早被 AI 所取代。

 

困于数据之中

在投资机构辰韬资本上月发布的《端到端自动驾驶行业研究报告》中,30 余位自动驾驶行业的受访者中,仅有 13% 表示对端到端技术持相对审慎的“观望”态度,其余皆表达了更为积极的“预研”乃至“全力投入”的态度。端到端在行业从业者中已成为共识。

但事实上,目前尚无任何一家企业(包括特斯拉在内),能够真正实现“原教旨主义端到端”。即把自动驾驶的所有环节都集中于同一个大型模型之中,切实达到如同人类一般的“输入视觉信号,输出踏板和方向盘操作”。

国内大部分主机厂现阶段的核心努力方向,是打通感知和决策模块。其中的关键在于,取消模块之间的人工定义结果,更多地采用特征向量来传递无损信息。

端到端自动驾驶的架构演进示意图 | 图片来源:辰韬资本

在端到端出现之前,传统的自动驾驶架构源自机器人领域,分为感知、规划、控制等不同模块。不同模块由不同团队开发,在模块与模块之间,主要通过人工定义的接口来传递信息。举个最为简单的例子,对于车辆是否压线行驶这一现象,在传统的感知模块中,能够用最为简易的计算机二进制语言进行表征。

而打通感知和决策模块的最大益处,便是能够涵盖更多现实世界中规则难以精确描述的“灰度场景”。例如,当您驾车时,无需知晓前车的确切行驶速度,亦或其是否压线,只需关注相对位置的变化即可。

在此基础上,依据生成式 AI 的理论,期望神经网络模型在大量输入后能够产生智能涌现,成为 AI 智能体。

这一切的根基皆来源于数据,也就是“投喂”给模型的训练素材。然而,与基于文字的语言大模型不同,智驾模型难以寻觅足够的公开视频数据作为训练素材。

前述《端到端自动驾驶行业研究报告》表明,目前规模最大的公开数据集仅有 1200 小时数据。而依据马斯克 2023 年的说法,特斯拉在端到端的初期,便投入了近 4 万小时的视频进行训练。

相较于其他车企,特斯拉数据的优势主要在于量产车数量众多。

目前,特斯拉在全球已交付超过 600 万辆汽车,而在中国积极布局智驾的新势力中,量产车的数量仅是特斯拉的零头。再加上其一贯的极简 SKU 以及全量预埋的智驾硬件,使得数据收集变得更为简便。

国内此前的常规操作,通常是依靠人工获取道路信息。然而,要训练出一个聪慧的端到端模型,也需要尽量涵盖足够多的边缘场景(conner case)数据。由于边缘场景的出现极具随机性,有厂商曾表示,仅依靠人工数据采集,仅能获取大约 2%的有限数据。

此外,与特斯拉相比,国内厂商往往拥有更为复杂的 SKU。而不同车型之间,由于车辆尺寸、传感器布局等的差异,模型中的相关参数也需要重新进行校准。

以华为系为例,鸿蒙智行在过去一年多的时间里展现出了极强的终端销售能力,但对于华为车 BU 服务的不同品牌、不同型号的车型而言,端到端落地后仍需要工程师进行校准和交付工作。对于拥有 2 个品牌 9 款车型的蔚来来说,同样如此,他们将集成团队重组至交付团队中。

在 Sora 发布后,马斯克发推表示特斯拉用 AI 模拟真实世界驾驶 | 图片来源:X 截图

有一种观点认为,以 Sora 为代表的文生视频类产品或许能够成为端到端模型的素材来源。但即便对于马斯克而言,使用 AI 生成的内容来训练 AI,目前也尚未得到公开认可。毕竟数据对于模型训练至关重要。要知道,一向对人力成本极度“吝啬”的马斯克,当年也曾在纽约雇佣了 1000 人团队,为特斯拉的道路视频数据进行标注。

 

切勿被马斯克“带入歧途”

听起来,转向端到端似乎是水到渠成之事,但删除 30 万行代码,对过往的组织架构进行打散重组,绝非易事。实际上,就连马斯克也是在某种程度上凭借运气走上了这条道路。那位在 2022 年底首次向他提议学习 ChatGPT 搭建智能驾驶神经网络的工程师,险些被马斯克调去解决 Twitter 收购后的其他问题。

训练出端到端模型后,相应的支持体系(包括算力等)也必须足够高效。蔚来智能驾驶研发副总裁任少卿在接受《腾讯深网》采访时表示,倘若没有基本能力便强行推行端到端,无异于服用“毒药”。

他说道:“倘若您原先的代码架构足够清晰,您的(debug)测试量或许仅有 1%。原先您花费三天重新测试 1%,如今不好意思,您得花费三天重测 100%。因此,您的数据验证体系效率必须足够高。”

然而,千万不要直接被特斯拉带入误区,端到端此刻仅仅证明了其具备提升工作效率的可能性,但并未证实它便是通向自动驾驶的最终解决方案。

这一点与业界关于 Scaling Law 能否通向物理世界 AGI(通用人工智能)的认知是一致的:可以肯定的是,生成式人工智能能够具备更高的智能,但是否能够理解物理规律,并在自动驾驶、机器人等领域应用,学界尚无定论。在《端到端自动驾驶行业研究报告》中,超过一半的从业者并不认为端到端是自动驾驶技术的终局解决方案。

对于自研智驾的主机厂来说,现阶段最为务实的做法,还是依托端到端促使智驾能力更加高效、优质地落地。至于智驾软件订阅这一事项,或许还需要更为漫长的道路。毕竟在中国市场中,硬件往往比软件和服务更易于销售。

当然,大概率也没有那么多人愿意成为马斯克那样的创新赌徒。放着实惠的廉价车型不去研发,却豪赌 Robotaxi,发布一旦推迟,市值便可能下跌上千亿美元。更多的普通参与者,只是期望搭载了端到端的智驾软件,能够助力硬件销售得更为出色。当然,如果还能够顺便提高售价,那便是最为美妙的事情了。

标签: 着实 的确

抱歉,评论功能暂时关闭!