Agent向左，Skill向右垂直深耕与“上下文”战争

2024年，新加坡。一支名为Butterfly Effect的创业团队收到了来自字节跳动的收购邀约。字节开价3000万美元，意图将这支团队整合进Doubao体系，补齐其当时在通用Agent领域的短板。不过这笔交易最终未能达成，创始团队拒绝了被“吞并”的命运，理由是估值偏低，更关键的是，他们不愿过早失去独立性。

这次分道扬镳，成为了两条平行线的分野。

仅仅一年后，创始团队的赌注就收到了回报。3月，Butterfly Effect孵化的Manus凭借一段演示视频在 AI 圈内激起涟漪，其展现出的“自主规划、全自动执行”能力，被视为 Agent（智能体）雏形的最佳代表。这种狂热在年底达到顶峰，Meta以高溢价将Manus收入囊中，作为其制衡硅谷企业级 AI 生态的关键筹码。

而就在大洋彼岸为Manus的造富神话欢呼时，字节跳动却在沉默中完成了另一种转身。

其内部一支秘密团队加速走到了台前，没有铺天盖地的宣发，也没有晦涩难懂的技术白皮书，名为AnyGen的工作流平台悄无声息地在海外上线。它支持 Google、Apple 和 Lark 登录，并直接沿用了最顺手的策略——免费。

在收购往事的影响下，主流风向倾向于将AnyGen视作Manus的“影子”。但如果将视线从表面的功能清单移开，会发现字节想要的并不止于此。

Manus的多Agent协作架构能够将任务分解给规划、执行、验证等不同模块的Agent，甚至支持一次调度上百个智能体并行处理研究任务。而AnyGen的野心则在于将语音交互、多模态理解、结构化引导和实时协作编辑深度整合到一个流畅的工作流中，即在最耗时的 “反复返工” 环节中，插入一层极度稳定的加工与交付能力。

在深度体验并拆解了AnyGen的产品逻辑后，《新立场》发现：字节其实是试图在Microsoft 365、Google Workspace严防死守的办公领地里，用一种 “反 Agent” 的逻辑，通过产品端创新与价格策略 “突围” 下一代工作流的操作系统。

回顾过去，Office套件的护城河在于“格式垄断”，而AnyGen试图建立的新秩序在于“流程重塑”。AnyGen去支持Lark的登录，去兼容PPT的原生格式。因为只有解决了交付的确定性，AI 才能真正从“玩具”变成“工具”。

在大象转身的时刻，AnyGen成为了那只试图隐入无形的先遣队。

人们热衷于拿AnyGen和Manus做对比，无非是因为市场喜欢“大卫挑战歌利亚”的叙事，或者巨头之间的镜像战争。但从AI架构的角度推演，这两款产品虽然同属生产力工具范畴，却明显是光谱的两极。

Manus代表的是硅谷当前最火热的叙事——通用智能体。它的核心逻辑是“全自动代理”。用户只需给出一个高层次的指令，例如“帮我规划去日本的旅行并预定酒店，顺便做一份预算表”。Manus便会接管你的浏览器和操作系统。通过多模态模型感知识别屏幕，规划步骤，点击鼠标，输入文字，甚至在网页崩溃时像人一样尝试刷新或切换路径。

Manus的目标是让你“躺平”。它像一个独立的数字员工，强调自治性。但在企业级应用中，Manus所代表的“长链路全自动Agent”在当前模型能力下面临着一个数学上的死结——“误差级联”。

简单来讲，假设一个 Agent 完成任务需要连续执行 10 个步骤（规划-搜索-阅读-筛选-决策），即使每一步的模型准确率高达 95%（这在复杂推理中已是极高标准），最终任务成功的概率也只有59%。这意味着，完全放任 Agent 自主执行，会导致近一半的任务失败。

Manus 试图通过并发调度“上百个智能体”来解决这个问题，这在本质上类似于OpenAI在o1模型中使用的“思维链”与“自我博弈”技术：通过增加推理侧的计算量来换取准确度。

但 Manus 的激进在于，它试图在开放的互联网环境中进行这种博弈，环境的不可控性（网页变动、验证码、非结构化数据）会让模型的规划树（Tree of Thoughts）迅速发散，导致计算成本指数级上升而效果收敛缓慢。

AnyGen则完全不同，它内置的技能（Skills）并非完全自主的Agent，而是经过封装的、高稳定性的系统提示词与工具链。它的定位直指“Notion的协作能力 + Google NotebookLM的知识总结力 + Manus的任务执行力”的三位一体。

AnyGen 的高效运作依赖于一套精密编排的 Agent 协作机制。这种机制将模糊的自然语言需求转化为精确的执行指令，并通过多阶段流转来确保结果的准确性。在这一流程中，系统能够自动识别任务间的依赖关系。例如，在撰写舆情周报时，针对不同媒体渠道（微博、微信、外媒）的信息搜集任务可以同时启动，显著提升数据获取速度。

《新立场》制图：AnyGen工作流程

而当某一路径（如特定网页无法访问）受阻时，Agent 不会直接报错终止，而是会尝试替代方案（如使用搜索引擎快照、查找其他信源），或者在最终报告中明确标注缺失部分，交由人工接管。

字节看得很清楚：在当下的技术周期里，完全自动化的Agent依然面临信任壁垒，在严肃的办公场景中，用户需要的是一个能深度增强人类能力的副手。

这种区别在社区内被称为“Agent派”与“Skill派”的分野。Manus希望你“放手”，它负责搞定一切，风险在于过程的不可控。AnyGen希望你“共创”，它负责搞定那些繁琐、重复、易出错的中间环节，核心决策权始终在人手中。因此，Manus和AnyGen的竞争关系很弱，更多的是生态位的互补。

《新立场》认为，现有最高效的方案是构建一个混合工作流，以小驭大：将长链路、复杂自动化任务委托给 Manus 执行，而在最终交付物的专业润色、可编辑呈现和视觉优化（如报告或 PPT）阶段，转向 AnyGen 进行打磨。

调研阶段：派Manus去全网搜集全球最成功的10个同类App的功能点和定价策略（利用其广度搜索和自主规划能力）。

内化阶段：将资料喂给NotebookLM，通过对话理清思路，生成一份产品功能清单。

交付阶段：将清单拷贝到AnyGen，生成一份产品路演PPT或UI设计说明文档，并在AnyGen里微调视觉细节，直到可以发给团队。

在“反复返工”中寻找确定性

办公赛道从来不缺玩家，但却是最难被“跑通”的领域。

微软的Microsoft 365生态坐拥十亿用户，但其本质是在旧时代的庞大躯体上嫁接AI，Word还是那个Word，Excel还是那个Excel。AI 生成的每一段文字，都需要用户在繁杂的菜单栏里进行二次加工。Notion AI足够灵活，但在深度数据处理和多模态整合上始终隔着一层窗户纸。

现实中，大多数 AI 办公工具的崩溃时刻往往发生在生成之后：文档出来了，打工人得面对高昂的修正成本；PPT生成了，还得处理格式走样、模板崩坏的“返工地狱”。AnyGen试图切入的，就是这个“反复返工”的痛点。

《新立场》在实测中，发现AnyGen展现出了一种有别于竞品的“确定性”。

以“数据调研报告”为例。当输入“分析过去30天Twitter上关于Gemini的讨论声量”时，AnyGen并不是简单地调用大模型生成一段似是而非的评论，而是内置了一个类似爬虫的Agent去实时抓取数据。

AnyGen数据调研报告·功能实测图

它直接扒取了Twitter的公开数据，生成了一份包含可视化图表、分析文本、明细表格的完整报告。更关键的是，报告的颗粒度虽然尚不及专业分析师，但报告的格式是结构化的，可以直接导出，直接汇报。

再看PPT场景，AnyGen接收到指令“把链接里的播客变成PPT”时，会收集用户的演示偏好（目标受众、字体风格）生成原生“.pptx”文件。虽然内容还是图片，但是已经可以用幻灯片的方式来播放。

AnyGen PPT制作·功能实测图

传统的 LLM 是基于概率预测下一个 token，这天生是发散的。但 AnyGen 显然在模型后端加了一层强约束，当用户要求生成 PPT 时，模型不再是生成“文本”，而是生成一段可被执行的 Python 代码或 JSON 结构，并在内置的沙盒环境中试运行。

《新立场》认为，这很好地反映了字节 AI 产品的思路——“代码即策略”，模型不直接画图，而是编写一段调用PowerPoint API 的代码。代码要么运行成功，要么报错重试，不存在“画歪了”这种中间状态。

这种将非结构化的自然语言转化为确定性的形式语言的能力，也是 AnyGen 敢于承诺“零返工”的底气所在。

AnyGen目前仅面向海外，但将其置于全球竞争的棋盘上，我们能更清晰地看到字节的处境。在海外，工具链极其破碎。Slack沟通，Notion记笔记，Zoom开会，Google Docs协作。这种碎片化给了AnyGen巨大的机会，它可以用“All-in-One”的工作空间故事，去整合这些零散的需求。

但如果AnyGen未来回归国内市场，它第一步要做的不是横向对比功能，而是找准自己的生态位。在国内，它将遭遇两股更强势的竞争力量。

第一类是办公套件内生的 AI，以金山WPS和微软Office为代表。这类竞品的最大优势在于它们本身就是“交付现场”。模板、字体、版式规范、协作审阅，这一切都发生在同一个系统内。套件型AI默认解决了所有新工具都绕不开的死穴：迁移成本。当用户在WPS里生成PPT时，不需要搬运数据，也不需要担心导出走样。

第二类是超级入口的轻量化打击，以夸克、百度文库为代表。夸克的逻辑是将PPT生产从沉重的办公套件中剥离，变成一种高频、移动端、随手可得的轻量消费能力。这种入口位置带来的分发效应极其恐怖。

面对Office的深厚积淀与Manus的前沿探索，AnyGen选择了一条更为务实的兼容之路。它试图在经典的交付标准与新兴的智能体验之间，架起一座通行的桥梁。在这家巨头看来，进入生产力场景不只是为了占领地盘，更是为了在 AI 时代，为用户提供一种确定性的工作方式。

为什么是现在？为什么是办公场景？

一个明显的趋势是大模型作为底层基座的战争已经结束，应用层的战争才刚刚开始。而跑出来的产品，大多不是“什么都能做”的通用工具，而是“把一件事做透”的垂直应用。例如写作的星月写作，语音博客的Listenhub，以及图像设计领域的Lovart。

这种风向的转变，在刚刚落幕的CES 2026上得到了最直观的印证。

相比于两年前CES 2024对AI无限期待的“野心”，今年的拉斯维加斯少了几分关于通用模型的宏大叙事。相比于那些试图在云端回答一切的大模型，市场将更多的聚光灯打向了“第二大脑”类的应用载体。从Plaud的录音贴片到Vocci的指环，参展商们不再执着于展示模型参数的大小，而是竞相展示如何更精准地捕捉会议记录、如何更高效地整理个人数据。

在《新立场》看来，其传递了一个清晰的信号：AI的战场已经从“定义物理边界”，转移到了“争夺数据上下文”。无论是美国的科技巨头还是出海的中国企业，大家都在寻找具体的支点。毕竟只有当AI开始处理具体的会议摘要、整理具体的待办事项时，它才算真正从表演性质的“Show”变成了能干实事的“Work”。

而细分来看，AI应用们在垂直场景的深度，比通用能力的广度更重要。Manus试图做通用Agent，什么都能干，但往往什么都不够深。AnyGen聚焦在“办公交付”这一个场景，反而更容易做出差异化。

这背后的核心逻辑在于“Context”（上下文/语境）。

程序员为什么是最先享受到AI红利的人群？因为Github Copilot拥有代码库这个最完美的Context。AI知道你的函数怎么写，知道你的变量怎么定义，它不需要揣摩你的意图。

但在通用的办公场景中，AI往往是“盲”的。它不知道你公司的PPT模板是什么，不知道你的汇报对象喜欢什么风格，不知道你上周的会议纪要是怎么写的。那些AI不知道的痛点，才是做AI产品最应该知道的Context。

对于办公用户，让他们去构建工作Agent、去写System Prompt、去调试API是不现实的。AnyGen试图解决的，就是这种办公场景的Context。

这也是字节最擅长的环节：将隐性的用户需求显性化。当年做头条，把“信息分发”的逻辑变成了算法；做抖音，把“娱乐消遣”的逻辑变成了短视频流。如今做AnyGen，字节也在试图把“办公协作”的隐性流程，变成企业级AI生态的显性技能。

不同于多数 AI 工具采用分层订阅或按功能付费，AnyGen从一开始即提供完全免费的体验版本，甚至允许企业用户通过邀请码直接试用。

在 SaaS 普遍追求订阅付费、Token 成本依然高昂的当下，字节意图通过免费策略，构建一个覆盖全球的“过程奖励模型”（Process Reward Model, PRM）训练场。

在大模型训练的scaling laws中，最稀缺的资源已从原始静态的文本数据，过渡到人类在复杂任务中的“过程反馈”。当用户在 AnyGen 里手动修正了 AI 生成的周报摘要，或者调整了 PPT 的一张配图，这个“修改”动作本身，就是一个价值连城的梯度下降信号。

它教会模型的也不仅仅是“结果是什么”，还有“如何到达结果”。

在昂贵的 Token 成本面前，字节表现出的这种“松弛”，如果不被解读为一场针对存量市场的降维围猎，似乎很难从商业逻辑上自洽。显然，比起账户里即刻到账的现金流，这家巨头更在意的是如何将用户的使用习惯留在自己的生态之内。

写在最后

计算机先驱约瑟夫·利克莱德在1960年提出了“人机共生”的概念。他设想，人类设定目标、构建假设、确定标准，而计算机负责那些可程序化的、繁琐的计算工作。

六十多年过去了，Manus和AnyGen的出现，似乎正在逼近这个愿景的两个侧面。Manus向左，试图让机器更像人，拥有完全的自主权；AnyGen向右，试图让人更像神，拥有无所不能的工具箱。

这也给所有的AI创业者提了个醒：AI生产力软件加速普及的同时，在大厂和独立开发者的夹缝中，初创AI公司生存空间正在被压缩。AI时代创业需要想清楚，如何在大厂和独立开发者的夹缝中，找到一个可以快速积累产生数据壁垒的发展区。

既摒弃了大厂的各种合规和流程，又逃开了独立开发者的Vibe Coding。

对于字节跳动而言，AnyGen显然是其在AI时代的一次重要落子——试图将触角伸向更严肃、更底层的生产力领域。

飞书（Lark）作为字节的办公套件，在国内有着极高的口碑，但在海外市场，面对Slack和Teams的围剿，Lark的压力一直不小。但如果AnyGen能把语音记录和多模态输入转成结构化文档与演示材料，并进一步在飞书里完成分发、协作修改、评论审阅与版本管理，它就有机会绕开迁移成本。

这就解释了为什么AnyGen强调“协作”而非“全自动”。因为只有协作，才能让人留在Lark的生态里；只有留在生态里，才能产生粘性。

当Agent隐入工作流，字节这头庞大的大象，或许离真正地“隐入无形”也就不远了。

*题图及文中配图来源于网络。

本文系作者：新立场NewPosition 授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

字节