在巅峰国际官网方面,巅峰国际提供贴心周到的支持。
过去数年间,智能驾驶领域的竞争焦点经历了显著的演变。
初期,竞争集中在硬件层面,例如是否配备激光雷达、摄像头数量以及算力达到多少TOPS。随后进入大模型时代,竞争转向了端到端、VLA(视觉-语言-行为)和World Model(世界模型)等技术路线。
如今,越来越多的企业意识到,单纯拥有更大的模型已不足以形成代际优势,真正决定上限的是模型、数据、算力与芯片之间能否构建一个持续优化的闭环。
这也是为何越来越多的汽车制造商开始自主研发相关技术。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的全链条。在中国,小鹏、蔚来以及理想等品牌也在不断向更底层技术延伸。
理想汽车在今年发布的L8和L9车型中已采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想视为AI领域的一项重要技术方向。在此基础上,理想还运行了自研的马赫VLA模型。
然而,对于整个行业而言,更值得探讨的问题并非“是否进行自研”,而是这些投入究竟能解决哪些具体问题。
带着这个疑问,我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们分享了理想对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下为部分访谈内容摘要,经编辑整理:
问:为了在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面进行提升?
**詹锟:**我认为要追赶FSD,需要从两个层面着手。
首先是基础体验,具体体现在安全感、效率和舒适度这三个方面是否能达到FSD的同等水平。FSD在这几方面表现出色,安全感十足,效率很高,乘坐体验也很舒适,这是其核心功底。即便不处理极端复杂的路况,这些基础能力也需要达到同等水平。
其次是高级能力,这方面的追赶同样具有挑战性。例如,特斯拉能够识别并礼让特殊车辆,其在极窄路况下的感知精度极高,并且能理解交警的指挥信号,这些能力非常突出。
这些高级能力涉及架构的升级。为什么其他公司没有,而特斯拉拥有这些能力?这可能与过去的范式限制有关,也与架构和数据因素有关。我们在这些方面进行了大量的探索。
问:我理解马赫VLA是一个技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language,语言)的组成部分?
**詹锟:**当前自动驾驶的架构普遍呈现出将VLA(视觉-语言-行为模型)与World Model(世界模型)整合的趋势。
从长远来看,所有技术路线都将朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言成分是必然存在的,关键在于如何运用它。
就机器智能而言,我认为基于视觉(Vision Based)的路径更为合理,它更适合理解空间、感知三维空间以及服务于环境。语言无疑是有价值的,它有助于理解环境、交通状况、指令,以及进行复杂的思考和决策。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级别的自动驾驶,需要解决更广泛的通用性问题,那么模型必须具备类似人类的思考能力。在这种情况下,语言的重要性将日益凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备视觉和行为能力,即使拥有大量数据,也可能在遇到分布之外的情况时束手无策。就像动物即使学会了所有常见情景,面对从未见过的情况也可能完全不知所措,无法做出正确的选择。
我们认为,越是向L3、L4级别迈进,需要解决的问题就越接近90%、95%、98%之后的那部分——那些前所未有的问题,需要模型具备类人的思考能力。而获取这种推理和思考能力,语言模型是关键来源。例如,交警打手势让你通行或停止,这并非仅靠收集或生成数据就能解决的问题。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值数据的?
**詹锟:**首先,数据的规模必须足够庞大,其根本目的是收集更多的Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署高效的Neural Trigger(神经网络触发器),以判断场景的难易程度,并将关键数据回传。这也是特斯拉在这一领域表现出色的重要原因之一。
其次,数据的质量至关重要,主要体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都可以实现。但关键在于理解Action(行为)的质量,行为的准确性、一致性尤为重要。
至于数据规模增大后边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求满分,其增长曲线必然是“对数曲线”,即增长速度逐渐放缓,而非线性增长,这是所有AI公司都会遇到的情况。尽管后期数据收敛的速度确实会减慢,但我们仍希望通过扩大规模来加速这一过程。
问:马赫M100芯片能够支持多种AI场景的运行。展望五年或更远的未来,理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片?
**谢炎:**虽然业界存在“舱驾一体”的说法,但我们认为“舱驾一体”的核心在于AI算力部分,其他部分的整合程度则不那么关键。因为座舱系统与AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而大幅提升效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在该中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内也类似,将设立一个Token Server(Token服务器)。
该Token Server的优势在于:首先,效率极高。其次,能够实现不同任务的相互隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不受其他任务的干扰,这是软硬件协同设计才能实现的结果。
问:是否因为M100采用了数据流架构的AI推理芯片,所以相比其他厂商的自动驾驶芯片,它对带宽的需求较低,但对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非直接导致SRAM容量(非显存)设计的原因。目前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。但计算、带宽、SRAM等都需要晶体管来实现,最终的设计是基于成本、综合性能等多方面因素权衡后的选择。
不同的架构设计,仅仅依靠一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终取决于比赛的整体表现。
问:为什么当前的高算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,反而高通在低算力芯片上完成了这项工作?原因何在?
**谢炎:**从本质上讲,座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别发展的智能驾驶,需要一个更高确定性的系统,要求内存和计算资源专属使用,此时融合的意义就大大降低了。因为资源无法实现实时切换,实时切换会降低系统的确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片集成在一起,资源依然是分开的,并不能降低成本,甚至可能影响效率。
您可以看到,现有的舱驾融合系统,它们在功能上仍然是分开的。无法做到瞬间在座舱和驾驶任务间切换。在这种情况下,将两个芯片集成到一块芯片上,虽然晶体管数量可能不变,但只能节省一次封装的成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。
我的观点是,随着智能驾驶技术越来越高端化,舱驾融合的意义可能并不大。如果将这些芯片设计得更紧凑,集成在一块电路板上形成小型化集成方案,这是可行的,不一定非要集成到同一块芯片上,也可以将多块芯片布置在同一块板上。
问:自研芯片需要具备哪些条件,例如销量、营收、研发投入?当前自动驾驶迭代速度很快,芯片要持续迭代需要什么样的支撑?
**谢炎:**芯片的初期投入相当可观,可能每年需要数亿元。
首先,需要达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有几十亿到上百亿的资金,才足以支撑芯片的研发投入。其次,芯片研发所解决的问题,必须能够显著提升产品的能力。
许多人认为芯片需要庞大的出货量才能摊薄成本。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如Livis搭载两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机的芯片面积。
这样计算下来,几十万辆车所需的晶圆面积非常大,完全可以有效摊薄成本。所以,成本不能仅仅用芯片数量来衡量。
问:动态数据流编译器究竟难在哪里?攻克它花费了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作,在流片之前,我们已经完成了许多模型的运行测试。
数据流是一种完全不同的架构,它需要解决的问题与超级计算机或大规模计算机集群所面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信与协作,无法通过一个中央管理员来统一管理。传统的冯·诺依曼架构下的调度方式在这种规模下变得不可行,这是一个超大规模并行调度的问题。