从现在开始，得像研究DeepSeek一样严肃研究Kimi-鸟哥笔记

我研究过世界上绝大多数的主流AI大模型公司，试用过它们的产品。我是ChatGPT, Gemini以及Grok的长期付费用户，也经常使用国产的DeepSeek, Qwen, 混元和豆包。虽然我日常较少编程或使用Agent，但是对于文本会话以及图片、视频等多模态功能，我可是不折不扣的重度用户，经常在新版本模型发布之后一口气聊到大半夜。至于编程与应用开发，我在朋友圈密切关注几位程序员朋友的分享，对于Claude Gode和ChatGPT Codex之类的工具应该算不上文盲。

直到上个星期，我还对朋友说：“对于AI行业，我应该没有错过什么值得深入了解的东西吧。”然而接下来的几天，我先是在社交媒体，然后在自己加入的微信群，注意到了一件出乎意料的事情——Kimi的冉冉升起（尽管以前的地位就不低了）。3月16日和20日，马斯克两次赞扬了Kimi，第一次是为了一篇关于大模型注意力残差(Attention Residuals)技术的论文，；第二次则是为了Cursor发布的新模型被证实是基于Kimi K2.5微调的成果。尤其是第二件事情，影响巨大，震动了全球的AI圈子，我们不妨先把此事的来龙去脉回顾一下：

Cursor是全球最流行的AI编程IDE，没有之一。不过它主要是一个应用界面和工具箱，通过接入第三方大模型完成任务，例如Claude.
今年3月初，Cursor发布了原生编程模型Composer 2，效果极佳，推理成本极低，立即引发了高度关注；但是一开始，Cursor并未提及外部合作伙伴，很多人都以为是完全自研。
接下来两个星期，很多开发者发现，Composer 2的API和模型ID含有Kimi K2.5的痕迹，很可能是基于K2.5开发的；互联网口碑迅速反转，媒体转而指责Cursor抄袭Kimi。
3月20日，Cursor创始人道歉并承认Composer 2是基于Kimi K2.5二次开发的结果，感谢了Kimi的贡献；Kimi也大度的表示该模型通过合作伙伴获得了授权。至此，这一风波基本圆满解决。

说实话，这件事情给我带来的震动很大。此前我一直认为，Claude Opus 4.6和GPT-5.4是全球最擅长编程的大模型；在国内，我对DeepSeek的新版本寄予厚望，因为梁文锋此前发表的论文明显很关注编程方向。我对Kimi以及月之暗面这家公司的认知，主要还停留在当年“擅长超长文本分析”的阶段。我的那些资深程序员朋友比我还要震动——当Kimi K2.5成为全世界最流行编程工具的最受关注的“原生大模型”的基础时，稍有技术常识的人就该明白其背后的分量。

Kimi K2.5的竞争力，不仅在于其推理能力强、成本低，还在于它是开源的。因此它成为了Cursor二次开发的基础，还驱动了Cloudflare旗下新业务Workers AI的上线。在公告中，Cloudflare特别强调了K2.5的成本优势，称其为“性价比甜区”(Price-Performance Sweet Spot)：“我们提供Kimi K2.5服务，一开始是个试验，但是当我们看到它的表现以及性价比之后，这个试验马上就变得十分重要了。”

做个背景解释：Workers AI是一个大模型聚合平台，旨在为企业和个人客户提供统一API，客户不必拥有自己的硬件算力，就能选择不同的大模型完成任务。Workers AI接入的主要是开源模型，包括Meta的LLaMA、阿里的Qwen、谷歌的Gemma以及DeepSeek，等等。然而，直到不久前，它提供的模型几乎全是“小版本”，参数规模从几十亿到一两百亿，一般无法承担深度推理、长文本以及高强度的Agent工作流任务。Kimi K2.5是它接入的第一个大规模（总参数1万亿）前沿模型，从现在开始，它可以骄傲地宣称：“我们能帮助客户完成各种复杂的高强度任务啦！”

这个世界上，有的是能力强、跑分高的大模型，但它们往往不具备推理成本优势；具备成本优势的，往往又不开源。此时此刻，我们遗憾地看到，硅谷的那些最先进的大模型生态，基本建立在闭源基础上：

OpenAI的名字就代表着“开源”，但是自从GPT-3开始，前沿大模型就不再开源。2025年，才羞答答地发布了两个GPT-OSS开源模型，显然无法代表其最高水平。
谷歌在2021年之前也秉承开源路线，但是目前的旗舰大模型Gemini从不开源，只有参数规模明显较小的Gemma大模型是开源的。
Anthropic从成立之日起就没有发布过任何开源模型，Claude系列是完全闭源的。
Grok最初的几个版本曾经开源，但是自从Grok 3以来就不再开源。在连续两次点赞Kimi之后，不知道马斯克会不会重新考虑加入开源生态？

放眼全球，对开源生态最执着、贡献最大的，早已变成了中国厂商。DeepSeek, Kimi, Qwen……各有擅长的领域，都在某个时期成为过人类最前沿的开源模型。我觉得Kimi尤其难得，其融资、估值和消耗的资源只有OpenAI等硅谷大厂的2%左右，而且也远远小于国内互联网大厂的大模型部门。用这么少的资源，这么迅速的开拓AI基础研发的边疆，并毫不吝啬地将前沿成果开源，不禁让我想起了很多很多年以前的OpenAI。

除了中国之外，开源生态的旗手，基本仅剩LLaMA和Mistral了。LLaMA 1-3都是全球领先的开源模型，为生成式AI技术的传播做出了不可磨灭的贡献，奇怪的是LLaMA-4水平远远低于预期，扎克伯格若想重新接过火炬，恐怕得付出更多的努力。Mistral是法国乃至整个欧洲的独苗，成立之初仅以几十人的团队规模就做出了当时世界上“第三先进”的大模型（前两个是GPT和Claude），但是2024年以后其发展速度明显放缓，从基础模型的技术水平看，已经掉入了第二梯队。这其实是AI创业公司的常态，毕竟谁都无法保证在资源有限的情况下一直保持在潮流前列。所以，我反而更加佩服月之暗面——从2024年初因为长文本功能而走红，到现在以Kimi K2.5震惊世界，事实证明它绝不是昙花一现。

附带说一句，Mistral的技术进步放缓，并没有妨碍它在2025年9月完成估值140亿美元的新一轮融资；微软、Salesforce以及ASML（没错，就是荷兰那家光刻机巨头）都是它的重要股东。看到这一幕，你还觉得Kimi的180亿美元估值太高了吗？要知道，短短十几天前，马斯克的xAI刚刚以高达2500亿美元的估值与SpaceX完成了合并。就算我是Grok的深度用户，面对这个估值水平也得吐舌头。马斯克描绘的把数据中心发射到太空中的宏大愿景，让我深感激动；不过我得公允地说，Grok离世界最前沿水平还是略逊一筹。

X平台（原名推特）的著名AI博主、被诸多硅谷大佬关注的Tuki (TukiFromKL)说得好：“两家中国实验室的旗舰模型（注：DeepSeek和Kimi）都开源了，都用更少的资源做了更多的事情，挑战美国公司收费数十亿美元的产品。AI竞赛不再是美国vs中国，而是闭源vs开源，而开源正在迅速跟上。”

Tuki的这段评论或许有点武断，不过我赞成它的精神：在历次计算机技术革命中，开源生态都发挥了举足轻重的作用，AI革命也不例外。硅谷巨头仍然掌握着可观的技术和资源优势，但是拒绝拥抱开源生态只会让路子越走越窄。一个开源的、低成本的、持续更新的大模型，对应用层的意义怎么估计都不过分。就拿Kimi K2.5来说，Cursor用它做出了强大的Composer 2, Workers AI用它迈出了提供前沿大模型服务的第一步，我相信还有更多的应用商正在琢磨如何最大限度地利用它。这样的技术进步会让全人类受益，形成基础研发层与应用层互相促进的良性循环。

或许会有人担忧：“前沿技术开源了，那开发商怎么赚钱呢？”事实上这是最不需要担心的问题。我们不妨看看全球最大的开源软件生态——Linux，它从来不曾闭源，但是其生态系统每年创造着200-300亿美元的收入，近年来还呈现攀升的态势。这个数字还没有包括从Linux基础上生长出来的Android, 后者让智能手机真正走进了千家万户，谷歌在尽力维持开源社区的同时，成功地从附加服务上赚到了很多钱。

生成式AI对人类社会的影响才走出了第一步。所有人最应该关心的话题是如何尽快把蛋糕做大、把门槛做低，AI技术的普惠效应越强，AI基础模型及应用开发商的地位反而会越稳固。在这方面，以DeepSeek、Kimi为代表的中国厂商，反而比很多硅谷巨头想的更清楚一点。我想这就是杨植麟成为在今年英伟达GTC上面唯一受邀演讲的独立大模型公司CEO的原因：老黄的眼光十分精准，一再证明了自己能在纷繁复杂的竞争格局中，看清真正有竞争力的路线。

我迫不及待想看到更多像DeepSeek和Kimi这样的AI创业公司：开放的态度、短小精悍的团队、锐意进取的精神；它们应该与大厂形成你追我赶的长期竞争格局。在这个过程中，谁能获胜、谁受益最大，反而成了不太重要的事情，因为无论怎样，最终受益的都是全人类。

本文系作者：互联网怪盗团授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

DeepSeek

Kimi