Manis登场：多智能体协作，AI代理迈入可用时代

AI PM 编辑部 · 2025年04月08日 · 17 阅读 · AI/人工智能

多模态神经网络模型部署推理 AI Agent 微调大语言模型 AI应用 Embedding Cursor

正在加载视频...

视频章节

YC最新视频聚焦AI代理平台Manis：它并非更强的单一模型，而是一套精密的多智能体协作系统。文章深入拆解其技术架构、真实能力、成本优势，以及“应用层rapper”模式的机会与隐忧，帮助读者理解AI代理下一阶段真正的竞争焦点。

Manis登场：多智能体协作，AI代理迈入可用时代

YC最新视频聚焦AI代理平台Manis：它并非更强的单一模型，而是一套精密的多智能体协作系统。文章深入拆解其技术架构、真实能力、成本优势，以及“应用层rapper”模式的机会与隐忧，帮助读者理解AI代理下一阶段真正的竞争焦点。

为什么这次不只是又一个聊天机器人

过去一年，AI Agent几乎成了行业的“狼来了”：概念火热，但真正可用的产品寥寥。视频一开始就点出一个关键转折——“Usable AI agents are finally here”。从OpenAI和Google的Deep Research，到XAI、DeepSeek的尝试，真正能连续执行复杂任务的代理终于出现了。而Manis的特殊之处，在于它并未把自己定位为更聪明的聊天机器人，而是“the first general AI agent”。

Manis发布时的背景本身就颇具戏剧性：一家中国创业公司，在邀请制、访问极度受限的情况下突然走红，被称为“中国的下一个DeepSeek时刻”。不少早期用户评价它是“the most impressive AI tool they've ever tried”，甚至是“the most sophisticated computer-using AI”。这种评价并非来自参数或模型规模，而是来自实际体验——它真的能把任务从头到尾做完。

YC在视频里抛出的核心问题也很直接：在 hype 之外，Manis是否真的改变了AI代理的竞争格局？要回答这个问题，必须先理解它在架构层面做了什么不同的选择。

像公司一样运作的AI：多智能体架构的关键细节

这一节解释了为什么Manis看起来“更像一个团队”。与依赖单一大模型不同，Manis采用的是多智能体（multi-agent）系统。视频中的比喻非常形象：它更像一位高管，指挥一组各司其职的下属，在同一个行动空间里协作。

当用户输入任务后，首先是planner agent制定“master plan”，把复杂目标拆解成可执行的子任务。这一步很重要，因为它决定了系统不会“一口气瞎干”。随后，不同sub-agent接手任务——有的负责知识和记忆，有的负责执行，有的专门调用工具。Manis一共集成了29种工具，包括自动化网页操作、安全代码执行、文件信息抽取等，子代理会自行判断“用什么工具最合适”。

所有子任务完成后，executor agent再把结果整合，输出给用户。YC特别强调了其底层的动态任务分解算法，以及Manis团队提出的原创方法“chain of thought injection”，用来在多轮推理和工具调用后保持系统稳定、允许代理反思并更新计划。在模型层面，Manis明确基于Anthropic的Claude 3.7 Sonnet，并结合Browser Use和E2B云沙箱，实现跨平台执行。这些细节共同解释了：为什么它能长时间运行而不崩。

真实能力与冷静对比：基准测试和成本数字

技术架构是否有价值，最终要回到结果。视频列举了Manis擅长的一系列真实任务：旅行规划、详细的财务分析、教育内容生成，以及数据库整理、保险方案对比、供应商搜寻和高质量演示文稿辅助。这些都不是单轮对话能完成的工作。

YC选用了Gaia这一专门测试AI Agent的基准。Gaia关注推理、多模态处理、网页浏览和工具使用能力，人类平均分约为92%。作为对照，OpenAI的Deep Research最好成绩约为74%。Manis在该测试中拿到了86.5%，显著刷新了当时的state-of-the-art，距离人类平均水平只差几个百分点。

另一个容易被忽略但对创业者极其重要的数字是成本。Manis的多智能体编排使其单任务成本约为2美元，明显低于OpenAI Deep Research等集成式方案。再加上它允许用户直接查看文件系统、检查代理行为，形成了一种ChatGPT目前不具备的透明度。视频中的一句评价很直白：“Manis is a glimpse into the future of ChatGPT desktop operating directly on your computer.”

“Rapper”之争：应用层AI的护城河在哪里

Manis的成功也重新点燃了一个老争论：它是不是只是个“rapper”——把现有基础模型和工具拼接起来的应用层产品？YC给出的回应非常现实：如果按这个标准，今天大量成功的AI产品都是rapper。

视频举了几个具体例子：Cursor、Windsurf把LLM与实时代码分析、调试工具结合；法律领域的Harvey把基础模型与判例检索、合规检查、文档分析深度整合。Manis联合创始人Yichchow Peak G的态度也被直接引用：“from day one， they decided to work orthogonally to model development”，他们选择对每一次新模型发布感到兴奋，而不是恐惧。

但YC并没有粉饰风险。多智能体的协调在任务规模变大时会迅速变难；UX、微调和集成优势，也可能被竞争者复制；更现实的是API价格或政策变化，随时可能抹平成本优势。真正可持续的差异化，来自昂贵且难以复制的专有评测、深度嵌入用户工作流的产品设计，以及竞争对手难以接入的数据或平台。这也是视频给所有AI创业者留下的关键方法论。

总结

Manis并不代表“更大的模型”，而是一次关于如何组织AI能力的实验。它证明了在现阶段，把现有模型、工具和多智能体架构“缝合”成用户真正愿意使用的产品，本身就是巨大的创新。对读者而言，这个故事的启发在于：下一波AI竞争的焦点，正在从模型参数转向系统设计、成本结构和用户体验。谁能把这些元素组合得更好，谁就更接近胜利。

关键词： AI Agent，多智能体系统， Manis， Claude， AI应用

事实核查备注： Manis被描述为通用AI Agent；采用多智能体架构，包含planner agent、sub-agent、executor agent；集成29种工具；原创方法名为chain of thought injection；基础模型为Anthropic Claude 3.7 Sonnet；Gaia基准：人类约92%，OpenAI Deep Research约74%，Manis为86.5%；单任务成本约2美元；相关公司与产品：OpenAI、Google、Anthropic、Cursor、ChatGPT、DeepSeek、Y Combinator。

返回文章列表