21世纪什么最贵？大多数公司始料未及，最贵的原来是算力，是数万美元也“一芯难求”的GPU。

OpenAI创始人Sam Altman曾经预言，算力将成为一种新的货币。去年，Gartner预测2026年的全球AI支出预计将达到2.52万亿美元，其中光是基础设施就需要增加4010亿美元的投入，相当于英伟达三年多的营收。

算力的花费可以分为两部分，训练曾经是最昂贵的支出。但随着大模型嵌进搜索、广告、推荐、客服、游戏等高频场景，推理逐渐取代训练，占据更大的成本。IDC预计，2026年，推理算力的消耗占比将会提升到62.2%，训练算力则降低到37.8%。

AI需要商业化，企业便需要更高性价比的算力，否则辛苦开拓的商业模式，最后全喂饱了英伟达。然而，GPU遵循的传统架构在执行运算时有不小的数据搬运成本，在大规模实时生成任务中会产生更多花费，并且制造成本也在不断上升。

于是，挑战者不断出现，并抛出新的想法：如果，我们不用GPU的架构呢？

一、寻找GPU之外的可能性

GPU诞生于图形渲染年代，并行运算能力突出，通用能力强。但这种多功能性用来支持AI，就成了历史包袱，难以满足Token边际成本持续降低的需求。

这是索罗斯“反身性”理论在算力领域的兑现：GPU“意外”适应了AI的需求，早期AI依赖GPU并助推后者市场扩大乃至绝对占有，然而当算力需求发展到一定阶段，GPU架构又限制了AI效率的提高。早期的选择也许只是那个时代的认知偏差，但它又造成了后来的因果循环，直到有新的架构能打破这种怪圈。

相比之下，非GPU路线能更好地针对AI需求做定制化，ASIC（专用集成电路）因此崛起。这条路上的知名企业数不胜数，华为、谷歌、博通、百度、寒武纪……无论采取何种架构、打造何种产品，都是为了AI的降本增效。

2025年11月，谷歌发布Gemini 3，性能跑赢了OpenAI被市场寄予厚望的GPT 5.1。Gemini 3基于谷歌自研芯片TPU训练，高盛推算其单位token推理成本下降约70%，在后发条件下追平了英伟达GB200 NVL72的成本。

去年，Anthropic便宣布要采用最多100万张TPU，11月又有消息称Meta考虑将部分AI基础设施迁移至谷歌TPU。就连英伟达股价，也因此受到影响。

但ASIC有一个天然短板：既然是定制，那么就难以匹配还在持续更新的AI算法和架构需求，而设计一个架构需要很长的周期，一旦算法变更，芯片就有可能过时。“芯模协同”，对于AI生态的构建意义重大。

去年的上海世界人工智能大会上，就有不少国产芯片厂商格外强调这一点。DeepSeek作为开源之光，也得到了国产芯片厂商的大力适配。其V4版本发布在即，很快又要接近适配节点。

既要高性能，又要强适配，有没有一种办法，能让芯片和数据算法更好地协同，高效适应模型的进化？

不仅有，而且还得到了英伟达的变相认可。

去年末，英伟达意外斥资约200亿美元，获得Groq知识产权的非独家授权，并将其主要人物一举收入囊中。

Groq由谷歌TPU早期团队成员创立，他们基于可重构数据流方法打造了LPU（Language Processing Unit，语言处理单元）产品，适配开源模型后展现的推理成本远低于GPU。

而几乎同一时间，“北京四大明星芯片公司”之一的清微智能，也基于可重构芯片（RPU）优势拿下超20亿元C轮融资，国家大基金二期、京能集团、京国瑞等多层级国资密集入场。我们从行业了解到，清微智能过去一年估值翻了三倍有余，接近190亿元，目前正在筹备Pre-IPO轮融资，为最终上市做准备。

“可重构数据流”为什么这么独特，能在大洋两岸同时受到超级资本们的认可甚至追捧？答案是架构——它不再以上下指令的通用处理器为中心，而是先看要处理的数据流长什么样，再让硬件围绕数据流去重构自己的电路拓扑。简单来说，软件定义硬件：

传统GPU存在“内存墙、效率墙、互联墙”问题，因为指挥数据的“旗手”和搬运数据的“员工”要不断地交流信息，徒增成本。ASIC方案把搬运流程变成了固定流水线，效率提高了，不过每次需求一改就要重新定制流水线。而RPU方案是根据数据算法的需求定义流水线，想要什么传送方式，便可以朝那个方向重构。

用清微智能创始人王博的比喻，这是在芯片里搭了一张充满“电子道岔”的铁路网。传统芯片是一条单线铁路，火车只能沿既定轨道跑；可重构数据流芯片则在每个节点都埋了道岔，今天把这些“小计算器”连成卷积流水线，明天又重连成注意力模块专用路径，执行完一段网络就擦除配置，十几纳秒内切成另一种拓扑。

本质上，它把程序驱动硬件变成数据驱动硬件，让数据在芯片内部节点之间直接流动，尽量少绕回显存排队。这对参数海量、访问模式高度规则的大模型尤其友好——每少绕一次路，背后都是成本曲线被向下拉了一段。

于是，算力产业拥有了一个具备差异化特征的“第二阵营”，尝试在蛮力堆砌GPU之外找出路。以清微智能为代表的创业公司，正在给大模型算力问题写出“第二解”。

二、太平洋两岸的可重构竞赛：清微智能领衔中国式创新

可重构的概念并不新鲜，重要的是它有了产业化的能力。Groq把语言推理抽象成LPU，适配开源模型后的推理效率一鸣惊人，SambaNova也在用RDU与整机方案做企业市场。

在这股潮流中，清微智能作为稀缺的新架构算力芯片企业，自然而然扮演了一个新角色：中国并非只能在GPU主线上做追随者，在刚刚打开的第二条算力支流上，我们拥有一支能拿得出手的本土队伍。它脱胎于清华大学微电子学院研究成果，如今正在为中国的芯模协同贡献力量。

在端侧，清微早期用TX5系列产品验证了这条路并非纸上谈兵。一颗工作功耗不到2毫瓦的语音芯片，让门锁、音箱、手机保持常年待机聆听状态；多款视觉与语音终端芯片被装进摄像头、手机、IoT设备里，累计出货超三千万颗。这些看似不起眼的产品，在较长的链路中完成了可重构架构的可靠性和工具链压力测试。

而真正让清微智能具备“爆棚”潜力的，是面向云端市场的TX8高算力芯片。它把“数据流+可重构”直接做到大面积裸片上，并配上一种不同于GPU的互联方式——C2C算力网格。

传统GPU集群的路径是“PCIe—网卡—交换机—网卡—PCIe”，每加一层节点就多一层延迟和拥塞。清微选择在芯片之间直接织网，让多卡互联更接近板上直连。这样一来，在千卡规模内可以削减大量昂贵交换机投资，同时把大模型训练/推理中最容易触顶的“互联墙”压薄一层。

搭载TX81的REX1032训推一体服务器，在同等功耗下可以承载万亿参数模型部署，单机跑DeepSeekR1/V3级别模型无需“缩水版”；整机方案测算下来，比同类GPU产品综合成本低约一半，能效比提升约三倍。

IDC统计显示，2025年上半年，清微在国产非GPU（含可重构、ASIC）加速卡销量中位列第六，进入本土算力第一梯队。

目前，清微智能已经为多地智算中心打造了“实战装备”。黑龙江、浙江、安徽、北京等地陆续上线千卡规模集群，新疆双河的中树云智算中心则在首期工程中直接采用可重构架构，成为“东数西算”和算力出海的重要节点之一。

在软件与生态上，清微一方面在众智FlagOS上做到卓越适配，与寒武纪、昆仑芯、摩尔线程、昇腾、中科海光并列为领域内的“六脉神剑”；另一方面采用“三层兼容”策略——上层CUDA API级兼容，中层深度押注OpenAI主推的Triton编译器并与智源共建生态，底层用RISC‑V替代PTX，为开发者预留足够“压榨性能”的空间。

这些看似琐碎的工程选择，针对的是新架构影响的客户迁移成本、交付与支持可靠性等问题。太多AI芯片创业公司倒在这一关，而清微智能在可重构数据流这条支流上，率先完成了从可用到可规模部署的跃迁，为中国算力产业探得了一方独立、有潜力的天地。

三、从“补课生”到“解题人”：高阶国产替代的第二条路

王博曾经表示，“相比短平快的仿制路线，选择新架构实现‘换道超车’才是真正的高阶国产替代。”清微智能押注未来3到5年的算力革命，实施“研发一代、储备一代、释放一代”的技术战略。

在这个过程中，清微智能扭转了算力问题的维度：不做英伟达的“补课生”，而是在另一条技术主线上，成为“解题人”。

这条路的难度一点不低，它意味着几件事要同时发生：

第一，要接受长时间的生态劣势，只能靠性能、能效、成本上的显著优势来抵消迁移成本。王博给客户的下一阶段承诺是“5倍性价比”：把采购、运维和性能整体算进来，让不转平台显得更亏。这会提高对架构、互联、存储、系统设计每一层的要求，但也会提高中国算力发展的天花板。

第二，要在非GPU赛道上尽快走完从“单点突破”到“系统方案”的闭环。可重构不是一颗孤立芯片，它要和3D存储、Chiplet、晶圆级架构等前沿方向咬合，形成一棵有延展性的技术树。清微规划中的TX83，就尝试把可重构算力网格与晶圆级芯片结合，为“后GPU时代”的大规模集群预留试验场。

第三，要承认算力问题已从芯片问题升级为系统问题。在大规模推理场景下，算力产业需要可长期演进的整体，支撑应用。此时，如果基座完全由海外产品来搭建，我们的应用将进一步形成依赖。而清微智能则在押一条未来十年中国算力不再完全锁死在GPU帝国里的技术路线。

这条路当然不保证成功，GPU也不会被“第二阵营”颠覆。但从产业角度，它至少已留下两个里程碑：

一是把中国在新一代算力架构上的时间点，第一次对齐到全球同一批玩家。

王博曾经总结过，芯片技术发展有一个“类摩尔定律”：20年，架构更新一次。过去在CPU、GPU、存储、接口标准上，我们几乎总是在别人定完方向后才开始追；这一次，在TPU、LPU刚刚从论文走向产品的时间窗口，RPU也由中国工程师以同样节奏做成了可出货的工业品。

二是让国家层面在算力上多了一条真正可选之路。当GPU供应出现风险、单一生态的议价能力高得离谱时，已经被初步跑通的新架构，会成为“火种”。

把视角再拉远一点，如果未来十年AI真能避开上一轮“寒冬”的命运，很可能不是因为模型的聪明颠覆了人类想象，而是低成本大规模应用改变了人类的生产方式。在如此宏大的时代旋律中，站在中国产业的支流上，机会也是无限的。清微智能被时代赋予的稀缺性，最终将以算力红利的形式，反哺于中国产业。

来源：松果财经

本文系作者：松果财经授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

财经新媒体