追赶FSD V14,理想在补哪些课?|最前线 - 旺财28
过去几年,自动驾驶行业的竞争焦点经历了显著的转变。
起初,竞争集中在硬件层面,例如是否配备激光雷达、安装多少摄像头以及算力达到多少 TOPS。随后进入大模型时代,竞争转向了端到端、VLA(视觉-语言-行为)以及 World Model(世界模型)等技术路线。
时至今日,越来越多的企业认识到,单纯拥有更大的模型已不足以形成代际优势。真正决定技术上限的,开始转变为模型、数据、算力和芯片之间能否构建一个持续优化的闭环。
这正是越来越多汽车制造商选择自主研发的原因。
特斯拉几乎覆盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全链条。在国内,包括小鹏、蔚来以及理想在内,都在不断向更底层技术领域延伸。
在其今年发布的L8和L9车型中,理想已采用了自主研发的马赫M100芯片。这款采用数据流架构的芯片被理想视为人工智能领域的一项重要技术方向。基于马赫M100,理想也运行了其自研的马赫VLA模型。
然而,对于整个行业而言,更值得关注的问题并非“是否自研”,而是这些投入究竟能解决哪些具体问题。
带着这一疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们阐述了理想对于下一代自动驾驶技术路线的判断,并解释了自研芯片、数据体系以及AI基础设施背后的设计理念。以下是部分访谈内容,经过编辑整理:
问:到第四季度,为达到特斯拉FSD V14的性能水平,理想汽车还需要在哪些方面进行改进?
**詹锟:**我认为在追赶FSD方面,存在两个层面的考量。
首先是基础体验,具体体现在安全感、效率和舒适度这三个方面是否能达到FSD的同等水平。FSD在安全感方面表现出色,效率高,舒适度也很好,这是其核心能力。即使不处理极端复杂的路况,也能在这些基本功上达到同等水平。
其次是高级能力,这同样难以追赶。例如,特斯拉能够识别并礼让特殊车辆,其在极窄通行场景下的感知精度非常高,并且能够识别交警的指挥手势,这些能力都非常强大。
在能力层面,存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力?这可能与以往的技术范式限制有关,也可能与架构和数据有关。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一套技术体系而非单个模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前的智能驾驶模型中是否仍然包含“L”(Language语言)这一部分?
**詹锟:**当前自动驾驶的架构正朝着一个共同趋势发展,即整合VLA(视觉-语言-行为模型)和World Model(世界模型)。
从长远来看,所有技术都会朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言部分是必然存在的,关键在于如何运用语言。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 是更为合理的,它更能体现对空间、三维空间以及环境的理解和感知。语言无疑是有价值的,它在理解环境、交通规则、指令以及进行复杂决策方面都发挥着重要作用。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级别的自动驾驶,需要解决更广泛的泛化问题,那么模型就必须具备类似人类的思考能力。届时,语言的重要性将愈发凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备视觉和行为能力,即使拥有海量数据,在遇到分布之外的极端情况时,也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情形也可能完全不知所措,无法做出正确的选择。
我们认为,随着自动驾驶能力向L3、L4级别迈进,所要解决的问题越来越接近90%、95%、98%的边界情况——那些前所未见的问题,需要模型具备类人的思考能力。而这种类人推理和思考能力,很大程度上来源于语言模型。例如,面对交警的手势,需要理解其意图是允许通行还是禁止通行,这并非仅仅通过收集或生成数据就能解决的问题。
问:随着理想汽车车队规模的不断扩大,从理想内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值的数据的?
**詹锟:**首先,数据的量需要足够庞大,核心目的是收集更多的Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署优秀的Neural Trigger(神经网络触发器),用以判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强大的重要原因之一。
其次,数据的质量至关重要,主要体现在行为质量上。如今,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),最终都需要明确Action(行为)。因此,行为的质量变得尤为关键,包括行为的准确性、一致性等。
至于数据规模扩大后边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求100分的表现,其增长曲线必然是对数型的,即缓慢衰减,而非线性增长。任何一家AI公司都面临这种情况。尽管后期数据收敛的速度确实会放缓,但我们希望通过规模效应来加速这一过程。
问:马赫M100可以应用于不同的AI场景。五年后,或者再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?
**谢炎:**尽管业内存在“舱驾一体”的说法,我们认为舱驾一体最核心的部分是AI算力。其他部分的整合并非那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而提高分配效率。
我们的路线图最终目标是实现车内一个集中的AI计算中心,所有AI任务都可以在这个中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内也类似,会有一个Token Server(Token服务器)。
这个Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的相互隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务干扰,这是软硬件协同设计才能实现的结果。
问:是否因为M100采用了数据流架构的AI推理芯片,其对带宽的需求相较于其他厂商的自动驾驶芯片较低,而对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实会相对较低,但这并非直接导致SRAM容量(而非显存)设定的原因。目前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本/综合性能等多方面因素权衡后的选择。
不同的架构设计,仅仅依靠一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是这项运动的综合表现。
问:为何目前的大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上实现了这一点?这是什么原因?
**谢炎:**从本质上讲,座舱(舱)和智能驾驶(驾)是两个独立的系统。特别是对于高端L3向L4的升级,智能驾驶需要一个更高确定性的系统,拥有专属的内存和计算资源。在这种情况下,融合的意义就大大降低了。因为资源无法进行实时切换,而实时切换会降低系统的确定性。如果系统朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片集成在一起,资源仍然是独立的,并不会带来成本的降低,甚至可能影响效率。
您可以看到,目前所谓的舱驾融合系统,它们本质上仍然是分开的。它们无法做到一会儿运行座舱任务,一会儿运行驾驶任务。如果无法实现这种动态切换,将两个芯片集成到一块芯片中,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片来说,这部分成本是可以节省的,但幅度也有限。
我的观点是,随着智能驾驶的不断高端化,舱驾融合的意义将逐渐减弱。如果将这些芯片设计得更紧凑,在一块板上实现高度集成化的小体积方案,这是可行的。但这并不一定意味着必须集成到一块芯片中,也可以是多块芯片集成在一块电路板上。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?鉴于目前自动驾驶迭代速度很快,芯片的持续迭代需要什么样的支撑?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元人民币。
第一个条件是达到一定的营收规模。对于车企而言,如果年营收达到1000亿元以上,研发投入至少占10%,即每年有大几十亿到上百亿元的研发资金,那么每年投入资金研发芯片是可行的。第二个条件是,通过研发芯片所解决的问题,能够显著提升产品的能力。
许多人认为芯片需要巨大的出货量才行。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如理想L7/L8/L9使用的两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8台手机芯片的总和。
这样计算下来,几十万辆车的需求所消耗的晶圆面积非常可观,足以摊薄成本。因此,成本不能仅仅用芯片的颗数来衡量。
问:动态数据流编译器究竟难在哪里?攻克它花费了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始了编译器的工作。在芯片流片之前,我们已经成功运行了许多模型。
数据流是一种完全不同的架构,它需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到几十万台计算机、上百万个核心时,它们之间的通信和协作是一个巨大的难题,无法依靠一个中央管理员来管理如此庞大的核心数量。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模并行调度的挑战。
旺财28围绕旺财28登录入口不断创新,回应用户的真实需求。
旺财28(中国)官方网站,自2015年起,致力于为广大玩家提供一个充满活力、信息丰富且互动友好的游戏社区。我们汇聚最新热门游戏活动资讯,精选深度专题内容推荐,实时更新平台动态,掌握一手信息,并提供多元互动交流功能,助您结识游戏伙伴。