理想的具身智能走到了哪里？一颗芯片、一套大脑、一个新范式,理想智造是哪个品牌的

李想花了一个半小时，解释了一件事：什么叫真正的具身智能。

作者｜周永亮

编辑｜郑玄

具身智能，跟造车到底有什么关系？

这个问题，在公共舆论上发酵一年多了。机器人、具身智能，这些词一次次出现在李想的 PPT 或演讲里。很多人看着，内心会有些迷惑：这跟买车、用车，有什么关系？

2026 年 6 月 15 日下午，理想汽车举办「Livis Day 理想汽车软件与具身智能发布会」。李想和团队，用了一个半小时，给出了他们认为最重要的答案：自研芯片、自研模型、全新交互体验、具身智能产品定义……一口气全端出来了。

而发布会结束后的第二天，理想汽车 CTO 谢炎、基座模型负责人詹锟，在媒体群访中说了更多发布会上没来得及说的话。

「智能汽车」，其实并不智能

「今天的智能手机和智能汽车，其实都不智能。」发布会刚开场，李想说了一句很多人没想到的话。

过去十年，行业对「智能汽车」的定义无外乎三点：软件定义硬件、能联网、系统可升级（OTA）。但放到今天，它其实是一台功能驱动的机器。

比如辅助驾驶系统在复杂场景下的常规处理是「退出」，把方向盘丢还给驾驶员。这完全合规，但却很危险；今天的辅助驾驶系统，只会向前开、向左转、向右转，却不会倒车、靠边停车；有急事的时候，在复杂路段，大多数人会关掉智驾自己开，因为通行效率不够高……

这些问题不是靠 OTA 打补丁能解决的，是设计之初架构层面的问题。所以，理想的解决办法，是直接用「具身智能」重写底层架构。

图片来源：理想汽车

其中，模型是具身智能的「大脑」。理想汽车把大脑拆解为两个维度：语言智能和机器智能。其中，语言智能负责听懂你说什么，推演行动方案。这部分由马赫 Mind-Pro（云端）和马赫 Mind-Edge（车端）承载；机器智能则负责看清物理世界，精准执行操作。这部分由马赫 VLA 承载。其中，马赫 Mind Pro 是云端旗舰模型。在权威基准测试中稳居行业第一梯队，在 Agent 专项评测中综合性能超越多款主流大模型。

值得关注的是它的工程效率：通过 Token 压缩技术，在任务完成率零衰减的前提下，整体 Token 平均消耗降低了 38%，工具调用冗余轮次降低了 47%，推理 TPS 峰值高达 208 token/秒，推理效率是主流 Agent 模型的两倍以上。

马赫 Mind Edge 则是行业领先的端侧原生智能体模型。这不是云端模型的「阉割版」，而是完全在本地运行的原生智能体。它不需要联网，数据完全不上传，全天候主动感知、人车交互、自主控车、多模态问答，全都在车端本地完成。

如果说 Mind 是「思考」，那么马赫 VLA 就是「行动」。马赫 VLA 的升级，可以用三个维度来理解：更安全、更高效、更强大。

其中，最让人印象深刻的是，发布会上播放的一系列视频，展示了马赫 VLA 在真实复杂场景下的表现：挖掘机爪臂伸出，从容减速等待，爪臂收起迅速通行；左转遇对向来车，迅速切倒挡礼让，再切前进挡通行；穿着黄马甲的保安用手势指挥，车辆准确理解停与行……

这些能力从哪里来？双马赫 M100 提供 2560TOPS 算力；模仿学习数据量增加 50%，强化学习数据量增加 15 倍；行泊一体模型参数量增加 10 倍，TPS 增大 15 倍。

同时，理想在架构方面进行了重构。原生多模态 MoE 大模型，取代传统感知、预测、规划各自为政的模块化模型。不是先看见、再思考、再执行，而是让看见、理解、思考、行动从一开始就在同一个框架里彻底对齐。

视觉能力的升级同样关键。理想发布了全新的 3D ViT 视觉架构。它的特别之处在于：不只是理解环境的 3D 空间结构，还能理解 3D 物体的属性、纹理、类型——因为保留了完整的 RGB 信息，没有任何感知损耗。更进一步，它还能对移动物体进行动静分离，在 3D 环境中精准判断目标是动还是静。

詹锟用了一个类比：人眼遮住一只，习惯了双眼训练之后，单目也能看到 3D 结构，因为大脑已经把这种能力固化下来了。3D ViT 的思路完全一样——用高维三维空间数据去训练模型，让单目摄像头也能构建完整三维空间。

在发布会现场，理想直接调用了车载系统的实时视角，展示了 3D ViT 如何瞬间重建整个三维场景，识别观众的姿态、位置，甚至场地后方的文字。

理想的目标，是在 2026 年年底追上特斯拉 FSD V14。基座模型负责人詹锟在媒体群访中说了一句很坦诚的话，「国内第一梯队之间的差距感觉变小了，但大家跟特斯拉的距离并没有缩小，特斯拉还是很强。」

他把追赶分成两个层面：第一是基础体验，具体是三方面：安全感、效率、舒适度是否能达到 FSD 的同等水平；第二是能力。FSD 有哪些能力是别人没有的？比如特斯拉会礼让特殊车辆，有极窄通行时的感知精准度，它会识别交警指挥。

但詹锟同时表示，随着芯片性能持续释放、纯视觉方案帧率向 15Hz、20Hz 乃至更高迈进，以及 3D ViT 带来更完整的视觉表征，追上 FSD V14「是有机会的」。

更重要的，是建立自己的护城河。詹锟说，「只有芯片、基础设施、模型全栈可控，迁移成本才足够高。如果你只是算法，中美之间的人才流动很快，很容易被迁移。但如果你是全栈的，迁移成本很高，也很难。」他还补充了一个容易被忽视的维度：下苦功夫，比如精细地洗数据，这些不高大上但不可忽视的细节，才是真正的护城河。

在理想看来，全栈自研，不只是技术路线的选择，更是在加厚自己的竞争壁垒。

理想造芯片，没走寻常路

如果说大模型是大脑，那芯片则是心脏。理想 CTO 谢炎在发布会上掏出的马赫 M100，官方对它的描述是「全球首款动态数据流 AI 芯片」。

「自研不是为了证明自己有能力做，而是真正去解决问题。」谢炎说，四年前，理想内部为这颗芯片立项时，先给自己设了一个近乎苛刻的目标：做到外购芯片 4 倍性能，否则自研没有意义。同时，也要在成本上帮助公司省钱。

他和团队花了半年时间做分析，得出一个冷静的结论：要超越英伟达，沿用英伟达的技术路线根本不可行。英伟达比你早启动几十年，资源多出几个数量级，在同一条赛道上追，永远追不上。

他用了一个直白的比喻，「就像你跟博尔特在 100 米赛道上，他比你早跑 2 秒，你不可能超过。你唯一的机会，就是跑另外一条路径。」

这条「另外的路径」，就是数据流架构。

冯·诺依曼架构的本质，是把计算抽象成一条顺序执行的指令队列。这套设计统治计算机行业整整 70 年，但指令队列掩盖了计算本有的并行度。为了弥补这个局限，芯片需要用海量晶体管来做缓存、调度、分支预测等管理开销，这些开销在 AI 时代会同步爆炸式增长，效率永远上不去。

因为 AI 的计算天然是并行的：数据是张量，关系是确定的，数据流动路径是清晰的。这是一张数据依赖图，不是一条指令队列。

图片来源：理想汽车

马赫 M100 的设计思路是，拆掉中央式的指令队列和大量管理开销，让数据的流动来驱动计算的发生。数据即计算。数据流到哪里，就在哪里触发计算，架构本身围绕 AI 的计算形态原生设计。

具体参数层面，马赫 M100 采用 5 纳米车规级工艺，单芯片算力 1280 TOPS，实际运行效率超过 82%，这是基于 GPU 架构的主流芯片极难达到的。在标准测试中，马赫 M100 对比行业最主流的智驾芯片，每一项测试都有数倍的性能优势。

更令人惊讶的是通用性测试，在马赫 M100 上部署千问 3.5 35B 通用大模型，与售价 4 万元的 NVIDIA DGX Spark 桌面超算对比，prefill 速度是后者的 2.7 倍，decode 速度是 1.5 倍。一颗装在车里的芯片，跑赢了 4 万块的桌面超算。

在发布会现场，谢炎说了一句雄心十足的话，「冯·诺依曼架构用 70 年推动了通用计算的辉煌，今天我们以马赫 M100 为起点，希望用数据流架构接过历史这一棒，继续推动 AI 计算再辉煌 70 年。」

当下，越来越多的汽车公司宣布自研智驾芯片。谢炎提出了自己两个评判指标，「一个是全量的车能不能用上，能不能快速上车，能不能跑最先进或最新一代模型，并且部署到所有车上。另外一个指标是能不能持续迭代。做一代芯片不说明问题，最终要做出第二代、第三代。」

不是一辆更好的车，而是一个伙伴

模型有了，芯片有了，理想给出了具身智能时代的汽车公式：具身智能汽车 = 电动车 + 职业司机 + AI 计算机 + 生活助手。

图片来源：理想汽车

这个公式，在发布会现场的 Agent 演示里，得到了最直观的体现。

难度最高的场景是「李想要去接家人」。产品经理一口气说出了一段极其复杂的指令：「老婆在蓝色港湾购物，老大在赵全营学美术，老二在望京学芭蕾，老三在中关村学乐高，老四在马泉营打羽毛球。先接老大，再接老四，再接老三，最后接上老二去接老婆，晚上要给老四在三里屯过生日。」

这是一个让很多人听了都头大的复杂多点规划任务。它涉及 5 个人、6 个不同地点、完全交错的接送顺序。如果你来做这件事，得拿出手机、打开地图、一个个搜地址，再想顺序、算路程，搞不好还要重来一遍。Livis 几秒钟就给出了答案，所有地址，所有顺序，一个没错。

这不是提前写好的程序，是真正运行在模型上的 Agent。

OTA 节奏是这场发布会最后的内容。按照规划，7 月的目标是智驾效率整体提升 30%，出行导游相关 Agent 技能上线；9 月，Livis 学会窄路会车、倒车让行技能，Agent 连接手机和电脑，新增超级 CarPlay；12 月，Livis 的反应速度达到 0.2 秒，比人类快 56%……

图片来源：理想汽车

最后，回到开头的那个问题：具身智能跟造车有什么关系？

如果你只是想造一辆更好的车，其实并不需要具身智能。但如果你想造一个能保护你安全，还能独立完成任务的伙伴，你必须从架构底层重新来过。

马赫 M100 芯片是「心脏」，3D ViT 感知模型是「眼睛」，自研马赫 VLA 大模型是「大脑」，全线控底盘系统是「手脚」，自研星环 OS 是「神经系统」……它们不是独立的产品，是同一个生命体的不同器官。

李想在发布会结尾说，「过去 10 年，我们创造了一个移动的家；在第二个 10 年，我们会给车和家赋予生命。」理想不是在造一辆更好的车，它在试图创造一个新物种，定义下一个范式。

*头图来源：理想汽车

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待具身智能汽车？