当算力比代码更重要：Ramp如何重构AI Agent的脚手架

AI PM 编辑部 · 2025年03月19日 · 17 阅读 · AI/人工智能

计算机视觉对话AI 推理大语言模型 AI Agent 模型部署 Embedding 神经网络上下文窗口 ChatGPT

正在加载视频...

视频章节

Ramp工程负责人Rahul Sengottuvelu用真实生产系统说明：在大模型时代，最该被优化的不是规则和代码，而是“能否随算力变强”的系统结构。这是一场关于Agent架构、工程取舍和未来软件形态的反直觉分享。

当算力比代码更重要：Ramp如何重构AI Agent的脚手架

Ramp工程负责人Rahul Sengottuvelu用真实生产系统说明：在大模型时代，最该被优化的不是规则和代码，而是“能否随算力变强”的系统结构。这是一场关于Agent架构、工程取舍和未来软件形态的反直觉分享。

从GPT-2到ChatGPT：一代工程师删代码的四年

为什么“删代码”会成为这场演讲的起点？Rahul一上来就讲了自己的经历：他在Ramp之前就开始折腾大语言模型，时间点早到GPT-2时代。那时模型“上下文窗口小、推理很弱、还经常犯蠢”，为了让聊天机器人能勉强用于客服，他们不得不在模型外面包上一层又一层复杂逻辑。

他的描述非常直白：“模型真的很笨，我们只能写很多代码去让它们‘看起来’没那么笨。”这些代码包括规则、状态机、各种兜底分支，工程量巨大，却脆弱不堪。真正的转折点出现在ChatGPT之后：模型本身的推理和泛化能力开始显著提升，团队反而开始一段持续的“删除代码”过程。

这四年的经验让他观察到一个清晰模式：随着模型变强，最先被淘汰的，往往是那些试图“替模型思考”的工程逻辑。也正是在不断删代码的过程中，他逐渐形成了这场演讲唯一想传达的核心观点——Agent系统应该被设计成，能自然地随着模型和算力的进步而变强。

唯一的核心观点：能随算力扩展的系统，会击败不能的

这一节是整场演讲的理论核心。Rahul用一句几乎像定律的话总结自己的方法论：“systems that scale with compute beat systems that don't（能随算力扩展的系统，会击败不能的系统）。”

他借用了广为流传的“苦涩教训（Bitter Lesson）”：在人类试图用聪明规则模拟智能的领域——无论是国际象棋、围棋、计算机视觉还是Atari游戏——最终胜出的，几乎总是那些结构更通用、但可以不断堆算力和搜索规模的方法。

为什么会这样？他的解释非常工程化：指数级增长的东西在现实世界极其罕见，而算力+通用模型恰好是其中之一。“当你遇到指数增长，就别试图太聪明，直接搭上顺风车。”相比之下，写大量精巧规则的系统，在算力固定时可能表现不错，但一旦允许更多搜索和推理，通用方法几乎必然反超。

这个判断，直接为后面Ramp在生产中做出的“看起来疯狂”的架构选择埋下了伏笔。

一个CSV迁移Agent，三代架构的真实取舍

为了避免抽象空谈，Rahul选了Ramp内部一个非常具体的生产Agent作为例子：Switching Report。它的任务听起来很朴素——读取任意第三方信用卡平台导出的CSV文件，把交易数据转换成Ramp能理解的统一格式。

第一代方案最传统：手写代码支持50个最常见平台。它“能工作”，但需要维护大量schema，一旦对方改格式就会报警、熬夜修。

第二代方案开始引入LLM，但方式很克制：系统仍然是确定性的流程，只在局部调用模型做列名语义分类，比如判断哪一列是日期、金额或商户名。大部分算力仍在“经典计算”中，LLM只是辅助。

第三代方案则彻底反转控制权：直接把CSV交给LLM，给它代码解释器、Python库、一个明确的目标格式，以及单元测试和校验器。模型可以自行决定如何写代码解析数据。单次运行并不稳定，但当他们“并行跑50次”时，成功率显著提升，且能泛化到大量奇怪格式。

这个方案的算力消耗，比第一代高出约1万倍。但Rahul给出的判断非常现实：“真正稀缺的是工程师时间。”在他们的成本结构中，即使算力多花一万倍，每次处理也不到一美元，而一次CSV迁移失败带来的商业损失要大得多。

从“调用模型”到“模型即后端”的软件想象

在解释完三种Agent结构后，Rahul把视角拉得更远。他用一个简单图示对比了三种系统：纯经典后端；经典代码调用OpenAI API；以及第三种——由LLM主导，必要时再“闯入”经典计算世界写代码、查数据库。

他指出一个被低估的事实：如果你什么都不做，大模型也会一年比一年强。“就算我们全体去度假一年，OpenAI和其他大实验室还会花几十亿美元让模型变得更好。”因此，你代码里“蓝色箭头”（LLM计算）占比越高，系统就越能自动吃到这波红利。

为了把这个想法推到极致，他现场演示了一个实验性邮件客户端：前端只是把点击事件传给LLM，真正的“后端”就是模型本身。LLM拿着Gmail token，自行决定如何拉取邮件、渲染UI、提供删除或标记未读等操作。

这个系统运行得很慢，也明显不稳定。Rahul并不回避这一点，他反而强调：“this kind of software barely works today（这种软件今天几乎跑不起来）。”但他真正想问的是——在指数趋势下，未来的软件，会不会越来越像这样？

总结

这场分享的价值，不在于某个具体Agent技巧，而在于一种工程世界观的转变：与其不断用代码“约束”模型，不如搭建能随算力和模型进化的脚手架。Ramp的选择看似激进，却极其务实——把复杂性交给指数增长的那一侧，把工程师时间留给真正稀缺的事情。对于所有在构建AI Agent的人来说，这或许是一次值得认真思考的反直觉提醒。

关键词： AI Agent，大语言模型，算力扩展， Bitter Lesson， Ramp

事实核查备注：演讲者：Rahul Sengottuvelu（Ramp）；公司：Ramp、OpenAI、Google；视频发布时间：2025-03-19；核心观点原话："systems that scale with compute beat systems that don't"；案例细节：CSV迁移Agent、并行运行约50次、算力约高出1万倍；演示系统：LLM作为邮件客户端后端；关键判断原话："this kind of software barely works today"

返回文章列表