华为、特斯拉带头,车企卷入「大模型」军备竞赛

访客 新能源 2.7K+

华为、特斯拉带头,车企卷入「大模型」军备竞赛

智能驾驶还没有出现类似ChatGPT的“突现”能力。

自动驾驶的过程,因为大模型又在兴风作浪了。

近年来,随着自动驾驶的快速发展和硬件嵌入式软件的不断迭代,车载计算能力快速增长和普及,但软件功能的演进滞后于计算能力。似乎人们开始接受发展成自动驾驶还需要很长时间。

但是ChatGPT的出现给自动驾驶行业带来了很大的启示。

ChatGPT作为大语言模型的代表,通过海量多模态数据的大规模自我监控学习和“预训练+微调”的方式,使AI能够完成各种复杂的自然语言任务,甚至通过图灵测试。& mdash自动驾驶被认为是下一个可能的突破。

北京致远人工智能研究院院长黄铁军甚至预言,三年内可以实现高水平的自动驾驶。

目前业内很多公司都在探索“上大模式”。部分自建大模型,商汤发布的不断增加的大模型,自驾一代大模型DriveGPT & mdash& mdash雪湖& middot海若;其他公司走联合路线,比如Xpeng Motors和阿里的大模型建立自动驾驶智能计算中心,斑马智行接入阿里的大模型。

目前“上大模”的关键进展:

数据注释& mdash& mdash特斯拉等公司通过大模型优化数据标注,降低人工标注的比例和成本;

模拟优化& mdash& mdash提高虚拟训练环境的真实性,优化虚拟训练数据;

优化感知& mdash& mdash利用大模型的能力,优化多个环节的小模型,提高感知效果;

端到端& mdash& mdash利用生成式预训练大模型技术,自动驾驶可以模拟人脑驾驶的能力。

大模型会对智能驾驶产生怎样的影响?现在有哪些公司和团队开始实践“上大模”了?真的能让无人驾驶来得更快吗?

小模型对大模型

智能驾驶行业经历了一个“从小到大”模式的过程。

目前量产的智能驾驶大多采用模块化架构。简而言之,模块化就是将智能驾驶系统拆分成几个典型的任务,由专门的AI模型或模块来处理。

目前,自动驾驶模型的框架主要由感知、规划决策和执行三部分组成。感知模块就像人的眼睛和耳朵,负责感知外界环境;控制模块就像人的手脚,负责最终的加速、减速、转向等操作;决策规划模块就像人脑一样,根据接收到的感知等信息进行行为决策和轨迹生成。

在这种架构下,每个大模块可能包含多个小模型的组合。例如,感知模块可能包含不同的AI模型,如分类、跟踪和定位,各有各的职责。

然而,随着软硬件的升级和深化,自动驾驶对计算能力和海量数据处理能力的需求激增,传统的“堆砌”小车型的方案已经无法满足城市自动驾驶的需求。比如“堆砌”导致信息失真和计算能力浪费,每个小模型的技术“天花板”也会导致整体解决方案受限。

举个简单的例子,小模特就像一个孩子。他很会看图,也很会听故事。他能很快找到图片中的物体或理解故事的意思。然而,如果故事太长或太复杂,他可能不理解或忘记它。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

特斯拉自动驾驶技术架构|特斯拉

这时,大模型开始进入行业视野。

2021年8月,AI DAY特斯拉高级总监Andrej Karpathy展示了一项新技术& mdash& mdash基于变压器的BEV(鸟瞰)传感方案。有直升机俯瞰车辆和周围环境,相当于车辆正上方10-20米。这是大模型技术首次应用于自动驾驶领域,也是特斯拉纯视觉智能驾驶方案的关键。

很多厂商,比如华为、百度Apollo、韦小立、米莉智行、商汤,甚至像地平线这样的芯片公司,也都在BEV+Transformer上有布局。比如华为的ADS 1.0据说实现了基于Transformer的BEV架构,新发布的ADS 2.0进一步升级了神网,类似于特斯拉的网络占用算法。

大模型可以比作一个成年人。他很聪明,可以同时处理很多信息,包括看图片,听故事,听音乐。他可以处理一个长故事或音乐,同时处理多项任务。但是,他需要更多的时间和精力去学习和处理这些信息。

值得注意的是,Transformer不等于大模型。它是模型的基础,大模型的架构可以基于Transformer。

大模型时代的数据和算法

特斯拉用了Transformer之后,大模型早已局限在智能驾驶感知领域。

目前,智能驾驶已经从只使用模型感知图像、使用规则算法,转变为使用模型进行感知、融合和预测。

其中,这些都是大模型在智能驾驶领域落地的首批场景。

数据注释

自动标注是大模型最直接的应用之一,可以大大降低数据标注的成本。海量高效的数据标注是算法模型的基础。随着智能驾驶的发展,激光雷达的三维点云信息和摄像头采集的2D图像信息增多,道路场景更加丰富,自动驾驶的数据标注种类和数量也越来越多。

但是数据挖掘难度大,数据标注成本高。因此,智能驱动厂商通过自动标注来优化系统效率。例如,特斯拉从2018年开始研发自动贴标技术,从2D手动贴标到4D 空自动贴标。随着自动贴标技术的成熟,特斯拉的人工贴标团队一直在萎缩。2021年团队1000多人,2022年裁员200多人。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

DriveGPT & mdash,Mimo智行发布的自动驾驶量产大模型;& mdash雪湖& middot海若|墨豪之星

Xpeng Motors和弥昊智行也推出了自动贴标工具。据Mimo智行CEO顾介绍,目前人工标注车道线、交通参与者、红绿灯的成本约为每张地图5元,而Mimo DriveGPT的成本仅为0.5元。

优化模拟

此外,自动驾驶需要大量的数据支持,数据积累将是自动驾驶长期的核心竞争点。目前主要的数据来源是真实数据、虚拟仿真和阴影模式。

除了真实数据,模拟场景是弥补大模型训练数据不足的重要途径。虚拟仿真通过AI生成道路场景、车辆、行人等信息,并对模型进行训练。可用于驾驶采集的拐角案例的反复模拟训练,弥补真实场景采集信息不足的问题。

目前,仿真场景主要由游戏引擎生成。基于真实世界数据,保证仿真场景与真实场景的相似性,通过交通要素的重组提高泛化能力。理论上,高质量的仿真可以替代实车数据采集,降低算法构建成本,提高迭代率,但难以构建逼真的仿真环境,再现很多长尾场景。

大模型有望促进仿真场景的泛化能力,帮助主机厂提高仿真场景数据的应用比例,从而提高自动驾驶模型的迭代速度,缩短开发周期。

比如特斯拉就是基于虚幻4引擎渲染的仿真环境来测试autopilot系统在极端情况和复杂环境下的效果。Mimo智行选择与阿里、德清政府合作,将真实的交通流导入仿真引擎,进行路口场景的调试和验证。

优化小模型

除了数据层面,在模块化算法部署模式下,感知算法和监管算法可以通过加强大模型来提高感知精度和监管效果。比如大模型作为车端算法的“老师”,通过“蒸馏(教学)”帮助小模型取得优异的性能。所谓“升华”,就像老师教学生把从一个大模型或者多个模型集中学到的知识转移到另一个轻量级模型上。

比如百度将文心大模型的能力与自动驾驶感知技术相结合,提高车载端侧模型的感知能力。百度采用半监督的方法,充分利用2D和3D数据,训练一个感知大模型。通过在多个环节提取小模型,提高小模型的性能,同时通过自动标注定制小模型进行训练。大模型可以增强远距离视觉的三维感知能力,提高多模态感知模型的感知效果。

端到端集成端到端感知和决策的集成算法被认为是自动驾驶算法的终点,预测、规划和决策都在这个模型中。所谓的“端到端”并不是自动驾驶领域独有的。它是深度学习的一个概念,英文叫“端到端(E2E)”。简而言之就是一个AI模型,只要输入原始数据就可以输出最终结果,类似于ChatGPT。

在智能驾驶领域,端到端并不是一个新概念。于1988年推出的ALVINN自动驾驶测试车基于端到端架构,可以在大学校园内以高达70km/h的速度自主驾驶。目前很多厂商开发端到端的智能驾驶技术,除了特斯拉,还有英伟达和comma.ai

这种驾驶方案更接近真实的人类驾驶,只需要一个人驾驶。从眼睛可以看到他的手转动方向盘,踩刹车或刹车片。整个过程一气呵成。关键因素是人脑中枢神经系统,端到端的大模型类似于人脑中枢神经系统。

DriveGPT的底层模型也采用了生成式预训练的大模型技术GPT。首先引入大规模驾驶数据进行预训练,然后利用奖励模型和RLHF(人类反馈强化学习)技术加强对驾驶数据的学习,从而不断优化自动驾驶的认知决策模型。

端到端的自动驾驶只是实现自动驾驶最理想的技术方案,带着研究者的理想主义。目前端到端大模型还存在很多痛点,最大的痛点是可解释性差。

从PPT到落地

然而,大模型与智能驾驶的融合并非一蹴而就。

李的创始人、董事长兼首席执行官李想认为,大模型和智能驾驶可以分为三个阶段:

第一阶段是赋能,也就是智能辅助驾驶,赋能驾驶员,让驾驶更安全、便捷。这个阶段需要进行人机共驾的过程来训练大模型; 第二阶段是半机器人。随着越来越多的人使用辅助驾驶,智能驾驶会形成半机器人。它可以解决酒驾、疲劳驾驶等问题,相当于垂直领域的专家,可以看作是真正免费的司机; 第三阶段是 AGI(通用人工智能)。行为学习和认知学习会二合为一,大脑和小脑同时具备,机器可以独立获取信息,形成自主迭代。虽然无法预测这个阶段何时到来,但我们对此充满期待。

华为、特斯拉带头,车企卷入「大模型」军备竞赛

大型模型开发时间表|网络

然而,大型模型在智能驾驶领域面临着许多挑战:

多模态数据

主要体现在多模态数据、训练和部署上。例如,自动驾驶所需的传感器数据包括激光雷达、毫米波雷达、超声波雷达、高清摄像头、IMU、GPS和V2X。这些数据来自不同的坐标系,触发时间戳不同,何时硬件损坏等问题都要考虑;同时需要大量的场景数据,比如交通标志线、交通流量、行为模型等等。

计算能力+芯片问题

从部署方面来说,大型号需要高标准的硬件配置,包括高性能计算能力、大容量内存和低延迟。而车载设备的硬件条件相对有限,无法提供足够的计算资源支持大型模型的运算。

具体来说,大规模模型需要10亿以上的GPU计算能力。例如,自然语言处理领域的GPT-3模型需要万亿次浮点运算(Tops)计算能力。这就要求芯片的计算能力至少要达到10,000 Tops才能胜任大型模型的计算任务。但是在车辆部署的场景下,芯片的运算能力往往只有几百个Tops,远远不能满足大规模模型的要求。

同时,大型模型需要大量内存来存储模型参数和中间状态。例如,在自然语言处理领域的GPT-3模型中,需要350GB的内存来存储模型参数。然而,在车辆部署场景中,芯片的存储容量通常只有几十GB。

时间延迟问题

此外,大规模模型的部署还需要考虑时间延迟的问题。比如在自动驾驶场景下,需要对海量数据进行实时处理和分析,因此需要保证模型的推理速度和响应时间。但在车辆部署场景下,要求模型的推理延迟控制在10ms级别。

总的来说,大规模模型在智能驾驶领域还是一个初级探索阶段,需要算法优化和硬件改进才能真正应用。但也给业界带来了极大的期待& mdash& mdash预计未来自动驾驶将成为真正的“老司机”。

邀请:

目前正在,或计划将大模型与汽车行业结合的团队或个人,无论产品是否落地,欢迎联系本文作者周永亮(微信:zhouxizi77),一起来聊聊“上大模型”!

[div][div]

标签: 模型 数据

抱歉,评论功能暂时关闭!