2个工程师,如何把AI Agent推到5亿级生产规模

AI PM 编辑部 · 2025年04月12日 · 1 阅读 · AI/人工智能

正在加载视频...

视频章节

一家只有两名核心工程师参与的团队,如何在金融这种高风险场景中,把AI Agent真正推到生产环境,并支撑每天千万级请求?这场分享讲清了从GPT-4试水、成本失控,到微调小模型实现质量、成本、延迟三赢的完整路径。

2个工程师,如何把AI Agent推到5亿级生产规模

一家只有两名核心工程师参与的团队,如何在金融这种高风险场景中,把AI Agent真正推到生产环境,并支撑每天千万级请求?这场分享讲清了从GPT-4试水、成本失控,到微调小模型实现质量、成本、延迟三赢的完整路径。

从“人工打电话”到AI Agent:一个反直觉的起点

为什么这件事重要?因为Method要解决的并不是一个“酷炫AI问题”,而是金融行业里一个长期存在、但极其低效的现实问题。

Method是一家为银行、金融科技公司提供负债数据聚合的公司。他们能拿到信用局、Visa、Mastercard的数据,但客户真正想要的,是更细粒度的信息——比如车贷的提前还清金额,或者房贷的托管账户余额。问题在于,这些数据“没有中央API”。直接和银行对接?Mustafa Ali直言,那至少是“几年级别”的事情。

更让他们震惊的是行业现状:很多公司靠外包团队人工打电话给银行,验证身份、抄数据、人工复核,再接入系统。这在Mustafa看来,本质上就是一个“极其低效、昂贵、容易出错的同步流程”。而一旦出错,展示给用户的就是错误的金融数据,这是最不能接受的结果。

但他也点出了关键转折:“从抽象上看,这整个流程其实就像一个API。”有请求、有认证、有响应校验,唯一的难点是——输入和输出全是非结构化数据。

GPT‑4是救命稻草,也是第一堵墙

为什么GPT‑4在这里如此关键?因为它第一次让“理解非结构化金融信息”变成了一件工程上可行的事。

在GPT‑4发布后,Method迅速用它搭了一个agentic workflow,让模型在真实生产环境中解析银行对话、文档和页面。效果非常好,甚至好到他们试图在一次API调用中塞进尽可能多的任务,以摊薄成本。

真正的转折发生在账单上:第一个月,GPT‑4的API费用是7万美元。Mustafa坦言,管理层“并不开心”,但仍然接受了,因为价值确实巨大。但问题不止是钱。随着流量上升,prompt engineering开始崩溃——提示词越来越长、越来越难维护,“你修好一个场景,就会弄坏另一个场景”。

他说了一句很有代表性的话:“Prompt engineering only takes you so far。”GPT‑4很聪明,但它不是金融专家。为了避免幻觉,需要大量约束,而这些约束本身又带来了延迟、不可预测性和无法缓存的问题。

真正的规模化挑战:不是能不能用,而是能不能跑

为什么很多AI demo死在生产环境?因为规模化指标会立刻暴露问题。

Method测算过自己的需求:每天1600万次请求,10万级并发,端到端延迟必须低于200毫秒。这时问题已经从“能不能解析数据”,变成了“系统能不能活下来”。

和OpenPipe合作后,他们第一次系统性地量化了三件事:质量、成本和延迟。结果很反直觉:在他们的任务上,GPT‑4的错误率大约是11%,而o3‑mini反而只有4%。但o3‑mini的延迟高达5秒,完全无法用于实时agent。更讽刺的是,尽管o3‑mini单token更便宜,但因为生成了大量推理token,整体成本并不低。

Kyle Corbitt总结得很直接:“没有一个现成模型同时满足这三个条件。”这正是大多数团队会卡住的地方——模型看起来都不错,但没有一个能真正落地。

微调不是银弹,但它弯曲了价格性能曲线

为什么他们最后选择微调?因为这是唯一能系统性“弯曲价格-性能曲线”的工具。

OpenPipe为Method做的事情并不复杂:用他们已经在GPT生产中积累的数据,训练一个专用模型。借助像o3‑mini这样的“教师模型”生成训练样本,再用这些样本微调一个更小的模型。最终上线的是一个约80亿参数的Llama 3.1模型。

结果是三赢:错误率低于业务阈值(约9%)、延迟大幅下降、单位成本远低于之前。Kyle强调,现在这件事之所以可行,是因为“你不再需要从零人工标注数据”,而是可以直接利用已有生产信号。

Mustafa在结尾点破了标题的含义:“我们之所以强调‘两个工程师’,是因为这件事并不需要买GPU,也不需要一个巨大团队。关键是识别清楚用例,跑完基准测试,然后在该微调的时候果断微调。”

总结

这场分享最重要的启发在于:AI Agent的难点从来不在“模型有多聪明”,而在于你是否愿意正视生产环境的残酷约束。Method的故事说明,GPT‑4适合探索问题空间,但真正的规模化,需要小模型、专用数据和清晰的指标。微调不是一开始就该用的工具,但当你撞上质量、成本、延迟的三重天花板时,它可能是唯一能让系统继续生长的路径。


关键词: AI Agent, 微调, GPT-4, Llama 3.1, 模型部署

事实核查备注: 人物:Mustafa Ali,Kyle Corbitt;公司:Method,OpenPipe,OpenAI;模型:GPT-4,o3-mini,Llama 3.1(约80亿参数);关键数字:首月GPT-4成本7万美元;规模需求:1600万请求/天,10万并发,<200ms延迟;错误率:GPT-4约11%,o3-mini约4%,业务阈值约9%。