出品 | 《态度》栏目

作者 | 袁宁

编辑 | 丁广胜

芯片行业有一个不成文的共识:看不清方向的时候,看老黄怎么做。

过去十年,黄仁勋几乎定义了AI硬件的游戏规则——他的GPU从实验室一路烧进了全球每一个数据中心。你可以质疑他的皮夹克品味,但没人质疑他的方向感。

所以,当老黄在本周GTC大会上,一边亮出Vera Rubin平台,一边正式推出Groq 3 LPU——这颗以200亿美元从初创公司Groq收购技术、快速整合而成的、专门为AI推理而生的芯片——整个行业不得不重新校准坐标系。

更劲爆的消息来自路透社。就在GTC开幕同一周,两名知情人士透露:英伟达正在准备推出一款面向中国市场的Groq芯片。消息人士特别强调,这款芯片"并非降级版本,也不是专门为中国市场制造的",可适配多种系统,预计5月上市。

200亿美元的收购、暂停一条产品线、重组下一代平台架构、同步推进中国市场版本——老黄在一周之内,把"极致高带宽的推理芯片"从一个小众概念推上了全球AI硬件竞赛的C位。

几个小时后的北京凌晨,一位半导体领域的投资人看完GTC的直播回放,连发三条消息给被投企业CEO:“老黄把故事讲完了。”“融资节奏要提前。”

他不是唯一一个睡不着的人。LPU将带来哪些新变量?

GTC引爆的连锁反应

过去两年,国内做推理方向的芯片团队在和潜在客户沟通时,几乎都经历过同一种对话模式:架构师们审慎地点头,说"方向可能是对的",然后跟上一个"但是"——"但我们要看客户怎么想""但要看老黄怎么做"。

过去两年,推理芯片公司一直卡在一个隐形门槛上:技术上“基本认可”,商业上“没人拍板”。

典型对话是: “方向可能对,但要看客户怎么想。” “或者……看英伟达怎么做。”这不是技术问题,是决策责任问题。

GTC提供了这个背书。而且力度远超预期,200亿美元 + 产品线重构 + 真实部署。

网易智能了解到,GTC之后,已有多家国产GPU厂商和互联网大厂开始与国内的推理芯片团队探讨架构级验证的可能性。在芯片行业,这是比签订合同更前置、但也更实质的一步——它意味着合作方愿意投入自己的工程资源,在自己的系统架构中实际测试你的方案能否跑通。

据多位投资人和从业者反馈,这波热度并非只集中在芯片设计公司,还沿着产业链向上游蔓延。高速存储器件、先进封装方案、甚至专用SRAM和新型存储IP的供应商,都开始收到更密集的问询。一位供应链人士表示,"好几家芯片公司突然来问我们MRAM和高密度SRAM IP的合作意向,之前一年可能才一两家。"

寒序科技是最先感受到这波变化的公司之一。

有中国团队已经在这个方向深耕了3年

GTC当晚,寒序科技的内部群几乎刷屏。

工程师们从直播里截图,一张接一张往群里丢,配的文字越来越激动:"跟我们想的一致。""再看这张,更一致了。""这不就是我们两年前画的那张图吗?"

CEO朱欣岳还没醒,群里已经刷了几十屏。等他拿起手机,投资人的消息也涌了进来,语气比平时急切,意思却高度统一:"方向被验证了,后面的融资节奏可以聊聊了。"

这种“被验证”的情绪,对寒序来说意义很大。

寒序科技成立于2023年8月,过去近三年一直在做的事情,和老黄这一周昭告天下的方向几乎完全重合——超高带宽、确定性流式架构、专为推理设计的芯片。换句话说,寒序可能是国内最早沿着这条路线做国产LPU的团队之一。

过去一年,朱欣岳见了不少国内GPU公司和互联网大厂的人。但比起拜访客户高管,他花更多时间做的事情是和一线工程师坐在一起,聊趋势、聊需求。寒序团队的底色是交叉学科——材料、物理、算法、芯片架构都有人懂,他们习惯从第一性原理出发,从大模型的演进方向、从器件物理的极限、从系统架构的瓶颈多个维度去推演:推理芯片到底应该长什么样?

结论指向同一个方向:极致高带宽,舍弃一切冗余功能,只为推理而生。

"之前我们要花很多精力给行业做教育——为什么需要一颗专门的推理芯片,为什么通用GPU不是最优解。"朱欣岳说,"现在完全不需要了。老黄已经替我们讲完了。"

但他很清楚,行业关注的焦点已经从"方向对不对"切换到了更尖锐的问题:"你的壁垒够不够高?性能到底怎么样?产品什么时候能上?"

教育市场的苦日子结束了,证明自己的硬仗才刚刚开始。

“中国版 Groq”的差异化路径

寒序科技常被称为“中国版 Groq”,但这个说法只对了一半。

两家公司确实瞄准的是同一个问题:大模型推理,尤其是 Decode 阶段,瓶颈不在算力,而在带宽。谁能更快、更稳定地把数据送到计算单元,谁就更有机会赢下推理时代。

但寒序和 Groq 的差别,不在“都做高带宽推理”,而在底层介质完全不同。

早在2024年9月和2025年11月,寒序科技就已联合北京大学物理学院、计算机学院、集成电路学院,以及澳门大学模拟与混合信号集成电路全国重点实验室,先后承担、主持两项北京市科技计划项目,在北京市科学技术委员会指导下,明确对标 Groq 路线与带宽指标,前瞻锁定0.1 TB/mm²/s 级超大带宽流式推理芯片研发。

这意味着,当 Groq 因 LPU 爆红时,国内团队并不是事后追赶,而是已经在同步推进一条差异化路线。

Groq 的解法,是在芯片上堆大量 SRAM,让数据尽量在片上流动,以极高带宽专门承担 Token 的生成和解码。这条路证明了一件事:推理时代,最快的芯片未必是最能算的,而是最能“喂”的。

但 SRAM 的短板同样明显。它采用传统6T 结构,单元面积大、密度低、成本高。模型越大,需要的芯片数量就越多,系统成本也越高。Groq 证明了方向成立,但 SRAM 路线的经济性始终是业内公开讨论的疑问。

寒序的不同,就在这里。

它没有沿着 GPU 的片外 HBM 路线走,也没有复制 Groq 的片上 SRAM 路线,而是选择用 MRAM 重做推理芯片的存储底座。MRAM 采用1T1M 结构,在相同工艺节点和芯片面积下,存储密度可达 SRAM 的5到6倍;读取速度接近 SRAM,但功耗更低,而且具备非易失性,断电后数据不丢失,无需持续刷新。

更关键的是,MRAM 对极先进制程和复杂封装的依赖更低。这意味着,寒序有机会在相对成熟、可控的国产工艺上,做到接近先进 SRAM 路线的存储密度和读出带宽,把高带宽推理芯片从一条高度依赖海外供应链的路径,挪到一条更有国产落地可能性的路径上来。

在此基础上,寒序又提出了 MSA(磁性流式处理)架构:将大规模 MRAM Banks 紧邻矩阵计算单元部署,让权重和激活尽可能在局部高带宽范围内按固定节拍流动,降低对外部存储的依赖,也减少推理过程中的延迟抖动。

据悉,SpinPU-E 的目标访存带宽密度为0.1–0.3 TB/mm²·s,已进入与 Groq 同量级的区间,远高于传统 GPU 的水平。

所以,寒序真正的优势,不是“做中国版 Groq”,而是:在同一条高带宽推理路线上,用 MRAM 换掉了 SRAM 这层地基。

据悉,寒序首颗测试芯片已经回片跑通,单位面积带宽做到了100 GB/s/mm²,与Groq LPU(约0.11 TB/mm²/s)处在同一量级,而英伟达H100的这一指标大约在0.002–0.003 TB/mm²/s。

窗口期有多长?

方向被巨头验证是好事,但巨头亲自下场也意味着留给创业公司的时间窗口并不长。推理芯片当前也处在一个微妙的时间窗口:方向已经确认,但产品尚未定型;市场开始升温,但真正的大规模采购还没有到来。

黄仁勋在GTC上给出了自己的时间表——Groq LPU预计2026年下半年开始规模出货,Rubin平台也将全面铺开。这意味着全球推理硬件市场的"iPhone时刻",大概率在未来12到18个月内到来。

对于中国的推理芯片公司来说,这既是机遇也是倒计时。

最大的压力在于,巨头已经下场,一旦全球头部厂商完成产品定义、客户教育和系统适配,留给创业公司的时间不会很多。你可以在局部创新,但必须在足够短的时间内把创新变成产品,把产品变成客户可部署的方案,同时还要有足够的资金,撑过从技术验证到规模落地之间的漫长跋涉。

但中国团队也并非没有自己的牌。供应链的确定性是其中之一。

在今天的外部环境下,很多客户真正担心的不是某一代芯片参数差10%还是20%,而是两年后、三年后,这条产品线还能不能稳定采购、能不能持续迭代、能不能放心地围绕它建设自己的系统。一颗不受管制风险影响、能够长期稳定交付的推理芯片,为客户提供的是一种确定性——这恰恰是国际巨头即便技术领先,也未必总能给出的承诺。

但比供应链更深层的壁垒,是团队本身。推理专用芯片不是画一张架构图就能做出来的。它依赖的是对底层器件特性的深刻理解、对高带宽存算一体结构的长期工程积累,以及在可靠性验证和产品化过程中与客户反复打磨的实战经验。这些东西无法靠融一轮钱、挖几个人来速成——它们必须用时间换。

朱欣岳对此看得很清楚:"确定性不只来自供应链,更来自团队对这条技术路线的理解深度。我们在磁性存储器件和高带宽存算单元上深耕了数年,跟上游供应商反复磨合,从工艺到封装到可靠性,一个坑一个坑地淌过来。工程师是我们自己培养的,经验教训是我们自己拿项目喂出来的,客户对可靠性和产品化的每一个质疑,我们都接住过、调整过。这些东西没有捷径,也很难复制。"

他甚至对英伟达进入中国市场持一种"欢迎"的态度:"如果英伟达的Groq芯片真的进来了,等于他们又替我们做了一轮市场教育。客户会更快地理解推理芯片是什么、能做什么、应该怎么用。等到我们的产品级芯片就绪,客户甚至不需要重新学习——直接适配就行。"

在进度上,寒序科技已经走到了关键节点。2026年初回片测试的芯片,已经验证了与Groq LPU一致的带宽密度——这是超高带宽流式推理架构中最核心、也可以说是唯一关键的指标。2026年内,团队将陆续完成外部IP验证和可靠性测试,并在年底完成产品级芯片的流片。如果时间表成立,2027年产品级芯片回片,国产LPU及完整解决方案将正式铺开。

但芯片行业的残酷之处在于,从流片到量产,中间还隔着系统验证、客户导入等一系列关卡,每一个都可能吃掉数月的时间。但寒序团队过去数年踩过的坑、与上游供应商建立起的深度协作、在可靠性和产品化上积累的工程经验,恰恰是穿越这段路程最重要的加速器。

所以,回到那条行业共识:看不清方向的时候,看老黄怎么做。

现在方向清楚了。剩下的问题只有一个:谁能跑得最快?或者更准确地说——谁的团队更稀缺、更不可替代,谁就能跑得更快、更远。