Manis登场:多智能体协作,AI代理迈入可用时代

AI PM 编辑部 · 2025年04月08日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

YC最新视频聚焦AI代理平台Manis:它并非更强的单一模型,而是一套精密的多智能体协作系统。文章深入拆解其技术架构、真实能力、成本优势,以及“应用层rapper”模式的机会与隐忧,帮助读者理解AI代理下一阶段真正的竞争焦点。

Manis登场:多智能体协作,AI代理迈入可用时代

YC最新视频聚焦AI代理平台Manis:它并非更强的单一模型,而是一套精密的多智能体协作系统。文章深入拆解其技术架构、真实能力、成本优势,以及“应用层rapper”模式的机会与隐忧,帮助读者理解AI代理下一阶段真正的竞争焦点。

为什么这次不只是又一个聊天机器人

过去一年,AI Agent几乎成了行业的“狼来了”:概念火热,但真正可用的产品寥寥。视频一开始就点出一个关键转折——“Usable AI agents are finally here”。从OpenAI和Google的Deep Research,到XAI、DeepSeek的尝试,真正能连续执行复杂任务的代理终于出现了。而Manis的特殊之处,在于它并未把自己定位为更聪明的聊天机器人,而是“the first general AI agent”。

Manis发布时的背景本身就颇具戏剧性:一家中国创业公司,在邀请制、访问极度受限的情况下突然走红,被称为“中国的下一个DeepSeek时刻”。不少早期用户评价它是“the most impressive AI tool they've ever tried”,甚至是“the most sophisticated computer-using AI”。这种评价并非来自参数或模型规模,而是来自实际体验——它真的能把任务从头到尾做完。

YC在视频里抛出的核心问题也很直接:在 hype 之外,Manis是否真的改变了AI代理的竞争格局?要回答这个问题,必须先理解它在架构层面做了什么不同的选择。

像公司一样运作的AI:多智能体架构的关键细节

这一节解释了为什么Manis看起来“更像一个团队”。与依赖单一大模型不同,Manis采用的是多智能体(multi-agent)系统。视频中的比喻非常形象:它更像一位高管,指挥一组各司其职的下属,在同一个行动空间里协作。

当用户输入任务后,首先是planner agent制定“master plan”,把复杂目标拆解成可执行的子任务。这一步很重要,因为它决定了系统不会“一口气瞎干”。随后,不同sub-agent接手任务——有的负责知识和记忆,有的负责执行,有的专门调用工具。Manis一共集成了29种工具,包括自动化网页操作、安全代码执行、文件信息抽取等,子代理会自行判断“用什么工具最合适”。

所有子任务完成后,executor agent再把结果整合,输出给用户。YC特别强调了其底层的动态任务分解算法,以及Manis团队提出的原创方法“chain of thought injection”,用来在多轮推理和工具调用后保持系统稳定、允许代理反思并更新计划。在模型层面,Manis明确基于Anthropic的Claude 3.7 Sonnet,并结合Browser Use和E2B云沙箱,实现跨平台执行。这些细节共同解释了:为什么它能长时间运行而不崩。

真实能力与冷静对比:基准测试和成本数字

技术架构是否有价值,最终要回到结果。视频列举了Manis擅长的一系列真实任务:旅行规划、详细的财务分析、教育内容生成,以及数据库整理、保险方案对比、供应商搜寻和高质量演示文稿辅助。这些都不是单轮对话能完成的工作。

YC选用了Gaia这一专门测试AI Agent的基准。Gaia关注推理、多模态处理、网页浏览和工具使用能力,人类平均分约为92%。作为对照,OpenAI的Deep Research最好成绩约为74%。Manis在该测试中拿到了86.5%,显著刷新了当时的state-of-the-art,距离人类平均水平只差几个百分点。

另一个容易被忽略但对创业者极其重要的数字是成本。Manis的多智能体编排使其单任务成本约为2美元,明显低于OpenAI Deep Research等集成式方案。再加上它允许用户直接查看文件系统、检查代理行为,形成了一种ChatGPT目前不具备的透明度。视频中的一句评价很直白:“Manis is a glimpse into the future of ChatGPT desktop operating directly on your computer.”

“Rapper”之争:应用层AI的护城河在哪里

Manis的成功也重新点燃了一个老争论:它是不是只是个“rapper”——把现有基础模型和工具拼接起来的应用层产品?YC给出的回应非常现实:如果按这个标准,今天大量成功的AI产品都是rapper。

视频举了几个具体例子:Cursor、Windsurf把LLM与实时代码分析、调试工具结合;法律领域的Harvey把基础模型与判例检索、合规检查、文档分析深度整合。Manis联合创始人Yichchow Peak G的态度也被直接引用:“from day one, they decided to work orthogonally to model development”,他们选择对每一次新模型发布感到兴奋,而不是恐惧。

但YC并没有粉饰风险。多智能体的协调在任务规模变大时会迅速变难;UX、微调和集成优势,也可能被竞争者复制;更现实的是API价格或政策变化,随时可能抹平成本优势。真正可持续的差异化,来自昂贵且难以复制的专有评测、深度嵌入用户工作流的产品设计,以及竞争对手难以接入的数据或平台。这也是视频给所有AI创业者留下的关键方法论。

总结

Manis并不代表“更大的模型”,而是一次关于如何组织AI能力的实验。它证明了在现阶段,把现有模型、工具和多智能体架构“缝合”成用户真正愿意使用的产品,本身就是巨大的创新。对读者而言,这个故事的启发在于:下一波AI竞争的焦点,正在从模型参数转向系统设计、成本结构和用户体验。谁能把这些元素组合得更好,谁就更接近胜利。


关键词: AI Agent, 多智能体系统, Manis, Claude, AI应用

事实核查备注: Manis被描述为通用AI Agent;采用多智能体架构,包含planner agent、sub-agent、executor agent;集成29种工具;原创方法名为chain of thought injection;基础模型为Anthropic Claude 3.7 Sonnet;Gaia基准:人类约92%,OpenAI Deep Research约74%,Manis为86.5%;单任务成本约2美元;相关公司与产品:OpenAI、Google、Anthropic、Cursor、ChatGPT、DeepSeek、Y Combinator。