随着自动驾驶技术的发展,越来越多的出租车司机面临着新的竞争压力。而作为一名智能驾驶行业的程序员,他们需要掌握最新技术和工具以保持竞争力。随着AI的普及和应用,越来越多的人开始关注汽车安全问题,并希望能够在车内享受更多的便利。出租车司机需要学会如何利用人工智能来提高工作效率和客户满意度,同时也要注意自身的技术水平和安全意识,以确保自己能够在未来的竞争中立于不败之地。
摘要
智能驾驶的“GPT时刻”来了吗?
每一项新技术从诞生到普及都会经历不同的阶段,也会面临不同的声音。开发者可能为了找到技术的最优解而放弃多年的努力;而商业机构则更注重对技术落地时机的判断,以求在合适的时机寻求最大的收益。
关于智能驾驶,国内主机厂商曾经有很深的认知差异。支持者认为它能带来“遥遥领先”的体验,反对者则抛出“臭技术”、“自动驾驶是傻子”等言论表示不屑。
2024年,随着特斯拉智能驾驶软件FSD V12“端到端”版本的正式推出,中国汽车厂商对智能驾驶的态度终于开始趋同。
以造车新势力代表魏小利为例,对“端到端”技术的追求显然已经开始发力。
小鹏提出将端到端大模型引入智能驾驶系统,并表示今年将在智能和训练数据上投入42亿元,目标是未来“内部OTA两天一次”。这是过去依靠人类维护几十万行智能驾驶代码无法想象的效率提升。
蔚来最近还重组了智能驾驶研发部门,将传统的感知和规模团队合并成一个大的模型团队,核心是推动基于神经网络的范式迭代。
就连过去被嘲讽为“挖工厂”的理想,近期也频频为智能研发造势。CEO李想亲自开发一个“端到端”的平台,搬出诺贝尔经济学家的慢思维理论,以表明他的团队找到了解决自动驾驶康纳案的方向。
那么,为什么让厂商从非共识走向共识就这么神奇呢?它如何改变了智能驾驶行业的范式,会带来哪些机遇和调整?
[div][div]
智驾的 GPT 时刻已经来过了
国内厂商迅速达成共识的重要原因是特斯拉率先交出了一份令人羡慕的端到端答卷。
今年3月,特斯拉正式推智能驾驶软件FSD V12.3版本,该版本最大的变化是将整个智能驾驶系统的工作动力从人类编写的代码切换到基于神经网络的AI模型。马斯克用“视频输入控制输出(Video in to Control out)”来描述这种新的工作范式,即AI根据它“看到”的道路信息直接输出驾驶操作,这在业内通常被称为“端到端”。
上个月,何肖鹏在加州体验了FSD V12.3.6版本。用他的话说,消防处“处理很多路况非常顺畅”。这是AI神经网络相比代码驾驶的最大优势:大大提高了智能驾驶系统在不同城市、不同路况下的泛化学习能力。
翻译成国内消费者更熟悉的广告营销说辞:可以全国(全球)开。
华为在去年9月喊出「全国都能开」的宣传语 | 来源:极客公园当然,这个结论只是现阶段的美好愿望。在实际操作过程中,需要对数据、算法、计算能力等AI基础设施进行充分的支持和训练,以接近“AI变得像人类司机一样聪明”的目标。
但对于同行来说,FSD V12版本意义重大。验证了神经网络真的可以代替人类编写的代码,甚至可以做得更好更高效。
这意味着你不用等N年,智能驾驶行业的ChatGPT时刻其实已经到来。想想阿里·张勇曾经说过的话:所有软件都值得用人工智能重做。FSD V12给了同行一个新的方向和信心:所有智能技术堆栈都可以端到端地再做一次。
FSD V 12测试版发布的时候,马斯克说这个版本把上一个版本的30万行代码压缩到了2000行,相当于不到1%。
新技术栈中的智力竞争不会比任何人都演变成更多的反创新内卷化游戏。如果AI的效率真的能达到两天一次的何内部OTA,那么一个个写规则、修复bug的机海战术就可以宣告彻底过时了。
那么智能驾驶行业还需要那么多程序员吗?笔者无法给出准确的答案,但可以肯定的是,智能驾驶程序员的工作内容也会发生一系列的变化。只会写雅思规则的程序员很有可能在出租车和网约车司机之前被AI取代。
[div][div]
困在数据里
在投资机构陈涛资本上个月发布的《端到端自动驾驶行业研究报告》中,自动驾驶行业30余位受访者中,只有13%的人对端到端技术表示了相对谨慎的“观望”态度,其余均表示了较为积极的“预研”甚至“全投”态度。端到端已经成为行业从业者的共识。
但事实上,没有一家企业(包括特斯拉)能够做到“端到端的原教旨主义”。也就是说,自动驾驶的所有环节都集中在同一个大模型中,从而真正实现和人类一样的“输入视觉信号、输出踏板、方向盘操作”。
国内大部分主机厂现阶段做的核心努力是打通感知和决策模块。这样做的关键是取消模块间结果的手动定义,使用更多的特征向量来传递无损信息。
端到端自动驾驶的架构演进示意图 | 图片来源:辰韬资本在端到端之前,传统的自动驾驶架构起源于机器人领域,分为感知、规划、控制等不同模块。不同的模块由不同的团队开发,模块之间主要通过人工定义的接口传递信息。举个最简单的例子,车辆是否在线上行驶的现象,可以用传统传感模块中最简单的计算机二进制语言来表示。
开放感知与决策模块最大的好处是可以覆盖更多现实世界中规则无法准确描述的“灰色场景”。比如你开车的时候,不需要知道前面车的准确速度,或者是不是压线,只需要注意相对位置的变化就可以了。
在此基础上,基于生成式人工智能的理论,预计在大量输入后,神经网络模型也可以作为AI智能体出现。
这一切的基础来自于数据,也就是“喂”给模型的训练素材。然而,与基于文本的语言模型不同,智能驾驶模型不容易找到足够多的公共视频数据作为训练材料。
前面提到的《端到端自动驾驶行业研究报告》显示,目前最大的公开数据集只有1200小时的数据。按照马斯克2023年的说法,特斯拉在端到端前期投入了近4万小时的视频训练。
相比其他车企,特斯拉数据的优势主要在于量产车数量多。
目前,特斯拉在全球交付了超过600万辆汽车,但在中国积极布局智能驾驶的新生力量中,量产汽车的数量只是特斯拉的零头。再加上一贯的极简SKU和全嵌入式智能驾驶硬件,数据采集变得更加容易。
中国以前的常规做法通常依赖于人工获取道路信息。然而,为了训练一个智能的端到端模型,在conner情况下也需要覆盖尽可能多的数据。因为边缘场景的出现是非常随机的,曾经有厂商说只有人工采集数据才能得到2%左右的有限数据。
此外,相比特斯拉,国内厂商往往拥有更复杂的SKU。然而,由于不同车型之间的车辆尺寸和传感器布局的差异,模型中的相关参数需要重新对齐。
以华为为例,鸿蒙系统智行在过去的一年里展示了强大的终端销售能力。但是,对于华为BU服务的不同品牌和型号,在端到端落地后,工程师仍需要进行对齐和交付。对于拥有两个品牌和九个型号的魏来说,情况也是如此。他们将集成团队重组为交付团队。
在Sora发布后,马斯克发推表示特斯拉用AI模拟真实世界驾驶 | 图片来源:X截图有观点认为,以黑脸田鸡为代表的文声视频产品可能成为端到端模式的源头。但即使对马斯克来说,用AI生成的内容训练AI也没有得到公开认可。毕竟数据对于模型训练太重要了。要知道,一向对人力成本极其吝啬的马斯克,还在纽约雇佣了一个1000人的团队来注释特斯拉的道路视频数据。
[div][div]
别被马斯克「带沟里」
转向端到端听起来是很自然的事情,但是删除30万行代码,把过去的组织架构打散重组,绝对不是一个容易的决定。事实上,就连马斯克也带着半分侥幸走上了这条路。这位在2022年底首次向他提议学习ChatGPT并构建智能驾驶神经网络的工程师,在Twitter被收购后,差点被马劳调走,去解决其他问题。
对端到端模型进行训练,以及相应的支撑系统(包括计算能力等。)应该足够高效了。蔚来智能驾驶R&D副总裁任在接受腾讯采访时表示,如果你没有基本的能力,你就在使用“毒药”。
他说:“如果你的原始代码结构足够清晰,你的(调试)测试量可能只有1%。你花了三天时间复试1%,现在对不起,你要三天复试100%。所以你的数据验证系统应该足够高效。」
但是不要被特斯拉直接带进沟里。端到端只是证明了它有提高工作效率的可能性,并不证明它是自动驾驶的最终解决方案。
这与业界关于标度律能否通向物理世界AGI(广义人工智能)的认知是一致的:生成式人工智能可以拥有更高的智能是肯定的,但能否理解物理规律并应用于自动驾驶、机器人等领域,学术界尚无规律可循。在《端到端自动驾驶行业研究报告》中,超过一半的从业者不认为端到端是自动驾驶技术的最终解决方案。
对于自研的主机厂来说,现阶段最务实的做法就是依靠端到端,让智能驾驶能力快速经济地落地。至于智能驾驶软件的订阅,可能需要更长的路。毕竟在中国市场,硬件往往优于软件和服务。
当然,很大概率没有那么多人想成为马斯克那样的创新赌徒。不开发出好的廉价机型,就赌Robotaxi。如果你推迟发布,你的市值将下降数千亿美元。更多的普通玩家只是希望配备端到端的智能驾驶软件,可以帮助硬件卖得更好。当然,如果能顺便卖个更贵的,那才是最美妙的事情。