李想花了一个半小时,解释了一件事:什么叫真正的具身智能。


作者|周永亮

编辑|郑玄

具身智能,跟造车到底有什么关系?

这个问题,在公共舆论上发酵一年多了。机器人、具身智能,这些词一次次出现在李想的 PPT 或演讲里。很多人看着,内心会有些迷惑:这跟买车、用车,有什么关系?

2026 年 6 月 15 日下午,理想汽车举办「Livis Day 理想汽车软件与具身智能发布会」。李想和团队,用了一个半小时,给出了他们认为最重要的答案:自研芯片、自研模型、全新交互体验、具身智能产品定义……一口气全端出来了。

而发布会结束后的第二天,理想汽车 CTO 谢炎、基座模型负责人詹锟,在媒体群访中说了更多发布会上没来得及说的话。

01

「智能汽车」,其实并不智能

「今天的智能手机和智能汽车,其实都不智能。」发布会刚开场,李想说了一句很多人没想到的话。

过去十年,行业对「智能汽车」的定义无外乎三点:软件定义硬件、能联网、系统可升级(OTA)。但放到今天,它其实是一台功能驱动的机器。

比如辅助驾驶系统在复杂场景下的常规处理是「退出」,把方向盘丢还给驾驶员。这完全合规,但却很危险;今天的辅助驾驶系统,只会向前开、向左转、向右转,却不会倒车、靠边停车;有急事的时候,在复杂路段,大多数人会关掉智驾自己开,因为通行效率不够高……

这些问题不是靠 OTA 打补丁能解决的,是设计之初架构层面的问题。所以,理想的解决办法,是直接用「具身智能」重写底层架构。


图片来源:理想汽车

其中,模型是具身智能的「大脑」。理想汽车把大脑拆解为两个维度:语言智能和机器智能。其中,语言智能负责听懂你说什么,推演行动方案。这部分由马赫 Mind-Pro(云端)和马赫 Mind-Edge(车端)承载;机器智能则负责看清物理世界,精准执行操作。这部分由马赫 VLA 承载。 其中,马赫 Mind Pro 是云端旗舰模型。在权威基准测试中稳居行业第一梯队,在 Agent 专项评测中综合性能超越多款主流大模型。

值得关注的是它的工程效率:通过 Token 压缩技术,在任务完成率零衰减的前提下,整体 Token 平均消耗降低了 38%,工具调用冗余轮次降低了 47%,推理 TPS 峰值高达 208 token/秒,推理效率是主流 Agent 模型的两倍以上。

马赫 Mind Edge 则是行业领先的端侧原生智能体模型。这不是云端模型的「阉割版」,而是完全在本地运行的原生智能体。它不需要联网,数据完全不上传,全天候主动感知、人车交互、自主控车、多模态问答,全都在车端本地完成。

如果说 Mind 是「思考」,那么马赫 VLA 就是「行动」。马赫 VLA 的升级,可以用三个维度来理解:更安全、更高效、更强大。

其中,最让人印象深刻的是,发布会上播放的一系列视频,展示了马赫 VLA 在真实复杂场景下的表现:挖掘机爪臂伸出,从容减速等待,爪臂收起迅速通行;左转遇对向来车,迅速切倒挡礼让,再切前进挡通行;穿着黄马甲的保安用手势指挥,车辆准确理解停与行……

这些能力从哪里来?双马赫 M100 提供 2560TOPS 算力;模仿学习数据量增加 50%,强化学习数据量增加 15 倍;行泊一体模型参数量增加 10 倍,TPS 增大 15 倍。

同时,理想在架构方面进行了重构。原生多模态 MoE 大模型,取代传统感知、预测、规划各自为政的模块化模型。不是先看见、再思考、再执行,而是让看见、理解、思考、行动从一开始就在同一个框架里彻底对齐。

视觉能力的升级同样关键。理想发布了全新的 3D ViT 视觉架构。它的特别之处在于:不只是理解环境的 3D 空间结构,还能理解 3D 物体的属性、纹理、类型——因为保留了完整的 RGB 信息,没有任何感知损耗。更进一步,它还能对移动物体进行动静分离,在 3D 环境中精准判断目标是动还是静。

詹锟用了一个类比:人眼遮住一只,习惯了双眼训练之后,单目也能看到 3D 结构,因为大脑已经把这种能力固化下来了。3D ViT 的思路完全一样——用高维三维空间数据去训练模型,让单目摄像头也能构建完整三维空间。

在发布会现场,理想直接调用了车载系统的实时视角,展示了 3D ViT 如何瞬间重建整个三维场景,识别观众的姿态、位置,甚至场地后方的文字。

理想的目标,是在 2026 年年底追上特斯拉 FSD V14。基座模型负责人詹锟在媒体群访中说了一句很坦诚的话,「国内第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。」

他把追赶分成两个层面:第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到 FSD 的同等水平;第二是能力。FSD 有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥。

但詹锟同时表示,随着芯片性能持续释放、纯视觉方案帧率向 15Hz、20Hz 乃至更高迈进,以及 3D ViT 带来更完整的视觉表征,追上 FSD V14「是有机会的」。

更重要的,是建立自己的护城河。詹锟说,「只有芯片、基础设施、模型全栈可控,迁移成本才足够高。如果你只是算法,中美之间的人才流动很快,很容易被迁移。但如果你是全栈的,迁移成本很高,也很难。」他还补充了一个容易被忽视的维度:下苦功夫,比如精细地洗数据,这些不高大上但不可忽视的细节,才是真正的护城河。

在理想看来,全栈自研,不只是技术路线的选择,更是在加厚自己的竞争壁垒。

02

理想造芯片,没走寻常路

如果说大模型是大脑,那芯片则是心脏。理想 CTO 谢炎在发布会上掏出的马赫 M100,官方对它的描述是「全球首款动态数据流 AI 芯片」。

「自研不是为了证明自己有能力做,而是真正去解决问题。」谢炎说,四年前,理想内部为这颗芯片立项时,先给自己设了一个近乎苛刻的目标:做到外购芯片 4 倍性能,否则自研没有意义。同时,也要在成本上帮助公司省钱。

他和团队花了半年时间做分析,得出一个冷静的结论:要超越英伟达,沿用英伟达的技术路线根本不可行。英伟达比你早启动几十年,资源多出几个数量级,在同一条赛道上追,永远追不上。

他用了一个直白的比喻,「就像你跟博尔特在 100 米赛道上,他比你早跑 2 秒,你不可能超过。你唯一的机会,就是跑另外一条路径。」

这条「另外的路径」,就是数据流架构。

冯·诺依曼架构的本质,是把计算抽象成一条顺序执行的指令队列。这套设计统治计算机行业整整 70 年,但指令队列掩盖了计算本有的并行度。为了弥补这个局限,芯片需要用海量晶体管来做缓存、调度、分支预测等管理开销,这些开销在 AI 时代会同步爆炸式增长,效率永远上不去。

因为 AI 的计算天然是并行的:数据是张量,关系是确定的,数据流动路径是清晰的。这是一张数据依赖图,不是一条指令队列。


图片来源:理想汽车

马赫 M100 的设计思路是,拆掉中央式的指令队列和大量管理开销,让数据的流动来驱动计算的发生。数据即计算。数据流到哪里,就在哪里触发计算,架构本身围绕 AI 的计算形态原生设计。

具体参数层面,马赫 M100 采用 5 纳米车规级工艺,单芯片算力 1280 TOPS,实际运行效率超过 82%,这是基于 GPU 架构的主流芯片极难达到的。在标准测试中,马赫 M100 对比行业最主流的智驾芯片,每一项测试都有数倍的性能优势。

更令人惊讶的是通用性测试,在马赫 M100 上部署千问 3.5 35B 通用大模型,与售价 4 万元的 NVIDIA DGX Spark 桌面超算对比,prefill 速度是后者的 2.7 倍,decode 速度是 1.5 倍。一颗装在车里的芯片,跑赢了 4 万块的桌面超算。

在发布会现场,谢炎说了一句雄心十足的话,「冯·诺依曼架构用 70 年推动了通用计算的辉煌,今天我们以马赫 M100 为起点,希望用数据流架构接过历史这一棒,继续推动 AI 计算再辉煌 70 年。」

当下,越来越多的汽车公司宣布自研智驾芯片。谢炎提出了自己两个评判指标,「一个是全量的车能不能用上,能不能快速上车,能不能跑最先进或最新一代模型,并且部署到所有车上。另外一个指标是能不能持续迭代。做一代芯片不说明问题,最终要做出第二代、第三代。」

03

不是一辆更好的车,而是一个伙伴

模型有了,芯片有了,理想给出了具身智能时代的汽车公式:具身智能汽车 = 电动车 + 职业司机 + AI 计算机 + 生活助手。


图片来源:理想汽车

这个公式,在发布会现场的 Agent 演示里,得到了最直观的体现。

难度最高的场景是「李想要去接家人」。产品经理一口气说出了一段极其复杂的指令:「老婆在蓝色港湾购物,老大在赵全营学美术,老二在望京学芭蕾,老三在中关村学乐高,老四在马泉营打羽毛球。先接老大,再接老四,再接老三,最后接上老二去接老婆,晚上要给老四在三里屯过生日。」

这是一个让很多人听了都头大的复杂多点规划任务。它涉及 5 个人、6 个不同地点、完全交错的接送顺序。如果你来做这件事,得拿出手机、打开地图、一个个搜地址,再想顺序、算路程,搞不好还要重来一遍。Livis 几秒钟就给出了答案,所有地址,所有顺序,一个没错。

这不是提前写好的程序,是真正运行在模型上的 Agent。

OTA 节奏是这场发布会最后的内容。按照规划,7 月的目标是智驾效率整体提升 30%,出行导游相关 Agent 技能上线;9 月,Livis 学会窄路会车、倒车让行技能,Agent 连接手机和电脑,新增超级 CarPlay;12 月,Livis 的反应速度达到 0.2 秒,比人类快 56%……


图片来源:理想汽车

最后,回到开头的那个问题:具身智能跟造车有什么关系?

如果你只是想造一辆更好的车,其实并不需要具身智能。但如果你想造一个能保护你安全,还能独立完成任务的伙伴,你必须从架构底层重新来过。

马赫 M100 芯片是「心脏」,3D ViT 感知模型是「眼睛」,自研马赫 VLA 大模型是「大脑」,全线控底盘系统是「手脚」,自研星环 OS 是「神经系统」……它们不是独立的产品,是同一个生命体的不同器官。

李想在发布会结尾说,「过去 10 年,我们创造了一个移动的家;在第二个 10 年,我们会给车和家赋予生命。」理想不是在造一辆更好的车,它在试图创造一个新物种,定义下一个范式。

*头图来源:理想汽车

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待具身智能汽车?