《曾被嘲沙发彩电理想,今如何在智能化中快速前行》

访客 新能源 69

悄悄完成了一项重大举措。

对于理想汽车,外界的认知似乎存在诸多偏差。

在众多新兴汽车品牌之中,理想汽车常常遭受“缺乏技术”的指责,甚至有声音将其产品贬低为“工业废品”。特别是在智能座舱方面,外界对其的印象似乎仅仅停留在冰箱、彩电和大沙发等元素上。

这种认知看似有些依据。理想汽车的创始人李想被誉为车圈最为出色的产品经理,他敏锐地察觉到多孩家庭的需求,并针对这一细分市场提供了更优质的用车体验。

在此过程中,理想汽车的宣传策略长期以来将技术细节置于幕后,更为注重展示产品的使用感受,例如宽敞的空间、舒适的配置以及影音娱乐等功能,而对自主研发技术的提及相对较少。这在无形之中导致了外界对理想汽车的认知出现偏差。

尽管理想汽车率先推出了冰箱、彩电和大沙发等配置,但理想汽车坚信,真正能够提升智能座舱体验的,是他们自主研发的大模型Mind GPT。理想汽车从2023年一季度开始启动这一项目,成为全球首个将自研大模型应用于车辆的汽车企业。

理想汽车AI首席科学家兼智能座舱AI负责人陈伟

在广州车展前夕,极客公园于北京望京的理想汽车办公室,对理想汽车的AI首席科学家兼智能座舱AI负责人陈伟进行了采访。他分享了大模型在汽车中的应用以及人机交互助手——理想同学的未来发展前景。

当下,理想汽车已成为新能源车企中交付量的领先者,然而其战略目标远不止于此。陈伟指出,理想汽车不仅仅是一家普通的车企,更是一家人工智能公司。智能汽车连接了物理世界与数字世界,他们期望将身处数字世界的理想同学塑造为未来的智能体。其发展可分为三个阶段:首先是增强用户的能力;其次是成为用户的得力助手;最后是成为能够陪伴用户的家人。当然,这三个阶段并非界限分明,而是会相互交织。

对于未来,理想汽车设定了一个宏伟的目标:成为全球领先的人工智能企业。他们的智能电动车不仅将成为最早的人工智能机器人,还将构建物理世界中的AI生态系统。现今,理想汽车正稳步朝着这一目标前行。

理想汽车:不止是车企,更是人工智能企业

Q:外界对理想智能座舱的发展历程知之甚少,您能否为我们介绍一下?

陈伟:理想智能座舱的AI交互技术历经了三代的发展。最初,我们主要依赖供应商的技术,但从三年前开始,我们着手自主研发,逐步构建了基于视听融合的多模态交互技术,实现了从语音交互到智能认知的全栈闭环。2023年初,我们开启了大模型的研发工作,并在年底成功将其应用于车载系统中。

在大模型尚未出现之前,语音交互主要是以命令式或任务型为主,行业内的竞争更多地集中在语音识别的速度、执行的准确性以及响应的效率上。然而,提升家庭用户的体验始终是我们的追求目标。我们专注于“全家人”的用车场景,打造了“三维空间交互”的智能座舱。这一座舱不仅是生活和工作之外的“第三空间”,同时也是一个高性能的运算平台,配备了丰富的传感器和强大的本地算力,为创新功能的实现奠定了基础。

例如,我们在智能座舱中实现了“无音区”技术,不再局限于某个特定的区域,而是基于空间坐标来定位和跟踪声源。此外,我们还开发了“方言自由说”功能,目前已支持9种方言,以方便不同用户群体的使用。我们还增添了隔空触控和手势识别功能,并与语音指令相结合,进一步降低了用户的交互成本。

在研发理想同学的技术过程中,我们始终致力于使人机交互更加自然、高效,力求为用户提供强大且超出预期的智能体验。

Q:理想汽车在研发自研大模型时主要考虑了哪些因素?

陈伟:在开展大模型研发之前,车内的应用场景主要集中在车控、媒体、导航等任务型对话方面,且感知技术已趋于成熟,但认知能力仍存在不足,尤其在复杂任务理解、知识问答、开放式对话等方面存在局限性,这也在一定程度上制约了理想同学的产品力。

我们从2022年便开始推动预训练语言模型技术的发展,逐步提升理想同学的自然语言理解能力。而在2023年初,随着ChatGPT的发布,我们更加坚信大模型是突破认知能力的关键所在。因此,我们决定启动Mind GPT的全栈研发工作,期望能够推动理想同学的体验实现跨越式的提升。

当时,开源生态刚刚起步,业界对大模型的理解也相对较为模糊。为了加快研发进程,我们投入了大量的资源,从大模型基座开始探索大模型“无人区”技术。在研发的初期,我们专注于车内高频使用场景,致力于打造理想同学在大模型时代的新角色,包括用车助手、娱乐助手、出行助手和百科老师,力求使大模型表现出色,并能够实现无感知的能力升级,同时与原有的任务型对话实现无缝融合,进而提升理想同学的智能化水平。

Q:在大模型与传统对话系统的融合过程中遇到了哪些挑战?

在开发Mind GPT的过程中,我们投入了大量的精力来解决任务型对话系统与大模型能力的融合问题。许多车企的大模型系统需要特定的指令才能启动,这会导致原有功能的失效。而我们的目标是在提升理想同学智能化水平的同时,保留用户所熟悉的交互体验,让用户在自然而然中感受到功能的进步。

此外,随着大模型的对话能力不断提升,理想同学在用户对话过程中可能会出现插话干扰的情况。因此,我们设计了多模态用户意图判定算法,使理想同学能够精准地识别是否正在与用户进行交流,从而实现“随叫随到”且不打扰用户的体验。

大模型在信息的准确性和时效性方面存在“幻觉”问题。为此,我们设计Mind GPT具备连接知识库及互联网的能力,以确保用户获取的信息准确且及时。这也是我们在优化模型体验时重点突破的方向。通过不断地探索用户场景,我们在大模型研发的过程中,也在持续地拓展其应用的深度和广度。

理想Mind GPT的技术架构

Q:Mind GPT经过了从1.0到3.0的迭代,在这个过程中有哪些关键的技术突破?

陈伟:Mind GPT的发展经历了三个重要的阶段:

1.0 大语言模型:着重于打造大语言模型的能力,在模型效果和推理效率之间寻找最佳平衡点,实现理想同学认知能力的飞跃,此阶段的重点在于语言理解、生成、知识问答等能力。

2.0 语言智能体:聚焦于大语言模型应用能力的构建,核心是围绕Mind GPT构建智能体技术及工程体系。理想同学仅有一个聪明的大脑是不够的,其规划、记忆、工具、行动的能力都需要足够优秀,才能够具备自主性,从而解决更多复杂的问题。

3.0 多模态智能体:专注于多模态智能体能力的打造,核心是构建融合感知和认知的多模态端到端模型的能力,将人机交互感知和认知的级联系统升级为单一的端到端模型,在极大降低交互延迟的同时,多模态数据的融合训练能够进一步提升模型的学习质量和效率,实现模型能力的显著提升。

Q:近期,理想汽车连续发布了三篇人工智能顶会论文,能否简要介绍一下这些论文的内容?

陈伟:这三篇论文主要聚焦于提升大模型的感知能力、解决人类 - 物体交互(HOI)检测中的长尾问题,以及应对大模型的“幻觉”问题,为理想汽车的多模态、端到端智能体的构建提供了重要的技术支持。

第一篇论文(文章尾部参考文献处有详细介绍)探讨了如何有效地将多模态信息与大语言模型(LLM)进行融合。当前,大多数多模态模型将不同模态的内容对齐到语言模型的语义空间,以便利用其强大的能力。然而,传统的模态连接器往往无法针对特定任务提取所需的模态信息。为此,论文提出了Q-MoE(高效的混合专家模态连接器),通过引入文本信息的监督,使多模态信息的提取更具针对性。Q-MoE采用了创新的模型结构和混合专家路由策略,在跨模态多任务学习中的性能显著超越了现有连接器。

第二篇论文提出了KG-Adapter,这一技术将知识图谱(KG)整合进大语言模型,以应对模型“幻觉”问题。尽管大模型在许多任务中表现出色,但往往缺乏准确的专业知识和最新的信息。KG-Adapter基于高效微调(PEFT)方法,将知识图谱的结构信息直接整合到语言模型中,实现了端到端的知识推理。实验表明,即使只训练少量参数,KG-Adapter在多任务和多个数据集上都超越了之前的模型,显著提升了知识的准确性。

第三篇论文针对HOI检测的长尾问题,提出了“双先验增强解码网络”方法。这种双先验解码网络结合了多模态大模型的交互理解能力和检测模型的局部特征定位能力,大幅提高了模型在长尾类别上的识别精度,性能提升超过6个百分点。

Q:理想汽车为何要投入如此大的精力来自研大模型,而许多车企其实是利用现有的大模型产品?

陈伟:从战略层面来看,理想汽车的目标是成为全球领先的人工智能企业,而大模型技术作为AI的核心能力,关系到智能化产品体验的关键。自主研发大模型能够帮助我们在技术创新和用户体验方面更具主动性和优势。

从产品角度来看,理想同学旨在超越用户的期望,提供创新且高效的智能体验。自2022年以来,大模型和智能体技术迅速发展,但同时也充满了技术挑战和不确定性。为了在这些前沿领域中持续提升产品力,就需要突破技术壁垒,并保持快速迭代的能力。

理想汽车从战略上选择自主研发大模型,旨在打造自主可控的全链路技术体系,以更加高效、深入的产研协同来推动体验创新。通过自有大模型“Mind GPT”,我们能够以用户体验为中心,实现快速迭代,确保理想同学在智能体验方面持续保持领先地位。

Q:目前理想汽车自研的大模型规模有多大

陈伟:Mind GPT目前主要分为Ultra、Pro和Nano三个级别,其中Ultra为千亿级、Pro为百亿级、Nano为十亿级,涵盖了从端到云、从简单到复杂的大模型需求。

Q:目前大模型的迭代速度非常快,理想汽车自研的大模型如何跟上这一速度?

陈伟:当前大模型技术的迭代速度的确很快,我们也在持续跟进并识别可行的技术,迅速应用到Mind GPT的研发中。同时,结合我们的业务场景,我们拥有自己的研发节奏和主线。从Mind GPT 2.0开始,我们已经切换到MOE架构,以此进行模型结构的创新和改进。大模型的能力将着重放在多模态、知识增强、逻辑推理等方面,我们最近发表的论文也介绍了在这些方面的研究进展。

此外,我们认为理想同学智能化水平的提升,除了在大模型能力上持续取得突破之外,智能体的规划、记忆、工具、行动等技术的全面升级,才能够构建出自主性更强的组合智能,这一方向我们也在重点研究,研究进展也会陆续通过产品和论文的形式对外发布。style="text-align: left;">

汽车的终极形态是智能体

Q:理想同学的终极目标是什么?

陈伟:我们认为理想同学的进化将分为三个阶段,增强人的能力,转变为用户的助手,成为用户的家人。成为用户的家人将是理想同学的终极目标,对应到研发工作中,需要实现理想同学多模态智能体的全面突破,可以参考OpenAI对智能的分级标准,需要完成从L1的chatbot到L2 Reasoner,再到L3 Agent的技术演进。

Q:如何具体理解理想同学的三个发展阶段?

陈伟:这三个阶段体现了我们不断满足并超越用户需求的愿景。

第一阶段:增强用户能力 在初始阶段,我们期望理想同学能够帮助用户更加便捷地使用车辆。通过视觉和语音等多模态的感知能力,实现自然且高效的人机交互。例如,用户可以自由地使用方言或简单的指令,理想同学通过大模型Mind GPT来理解和执行车控、导航等任务,提高语音指令执行的准确性。比如,用户可以简单地说一句“我上车开空调播放音乐,下车都关掉”,理想同学会根据具体情境自动拆解任务,感知到上车后启动空调和音乐,下车后自动关闭。这种便捷的功能使得用车体验更加轻松和高效。

第二阶段:成为用户的助手 在Mind GPT的支持下,理想同学进化为用户的全能助手,包括用车助手、出行助手、娱乐助手和百科老师。作为用车助手,它能够回答关于车辆操作、状态查询、故障排除等问题;出行助手则可以为家庭旅游规划路线,推荐餐饮娱乐场所,讲解沿途的文化;娱乐助手能够联网查询时事热点、明星动态,播放家庭喜爱的音乐和影视;百科老师则涵盖了广泛的知识,从儿童的十万个为什么,到成人关注的科技资讯,理想同学在不断增长的知识储备下,为家庭提供全方位的服务。

第三阶段:成为用户的家人 随着理想同学解决问题的能力不断增强,与用户的信任关系也逐步加深,我们希望进一步建立情感连接,最终成为家庭的数字成员。这个过程需要从信任到情感,再到身份认同的长期构建。例如,通过声纹识别,理想同学已经能够识别每位家庭成员;随着Mind GPT的记忆功能不断升级,我们持续加强理想同学的个性化服务能力。在2024年的多次OTA更新中,理想同学能够基于对每位家庭成员的理解,主动提供个性化的推荐。这是我们坚定发展的方向,希望理想同学能够获得更多家庭的认可和喜爱。

Q:目前整个行业,在大模型落地智能座舱方面的进展如何?

陈伟:在2023年我们的Mind GPT行业首发之后,2024年行业内许多公司都陆续推出了接入大模型的语音助手,行业智能座舱的智能化水平整体在快速提升,大模型也成为了一个重要的卖点。对于我们而言,我们唯一关注的是基于Mind GPT的理想同学是否真正地解决了用户的问题,是否持续地超越了用户的需求,是否在技术和体验上处于行业的引领地位,做好自己才是最为重要的。

Q:各家车企都在加速大模型的落地,那么理想汽车如何打造差异化呢?

陈伟:我们的差异化聚焦于技术创新,这能够直接推动产品的领先地位。我对差异化的理解分为两个层面:

第一个层面,对于行业内类似的功能,我们的技术和体验必须要有显著的超越。当前大模型的应用已经将AI助手从单一领域扩展到了多元领域,我们的目标是通过技术突破,将体验从“可用”提升到“好用”。

例如,在推出Mind GPT之前,许多公司选择简单地将大模型加入现有的任务型对话系统,以实现快速上线,但这种方式在使用时会给人一种割裂感。我们认为用户应该感受到的是AI助手变得更加聪明了,而不是需要进行操作切换。因此,我们选择了一条更为困难但却是正确的路线,将大模型融入到对话系统中,使得“理想同学”一次升级后变得更加智能。在不需要切换操作的情况下,技能从几十个迅速增加到了上千个。

第二个层面,快速跟进前沿技术并将其转化为产品。大模型仍然处于快速发展的阶段。去年大模型发布后,我们判断“智能体”将是关键技术,因此大力推进了相关的研发工作。

随着Mind GPT 2.0的上线,理想同学在大模型和智能体两个方面都得到了升级,在Benchmark测试中的理解、生成、知识问答等能力提升了50%以上,而推理成本并未增加。同时,我们在智能体的规划、记忆、工具使用和行动方面所取得的阶段性成果也迅速转化

标签: 交互 是否 逐步

抱歉,评论功能暂时关闭!