从零搭建AI Agent:一场“可运行、可打破”的真实示范
正在加载视频...
视频章节
这不是一场教你用框架的Agent演讲,而是一位工程师带你从最原始的循环、判断和工具调用开始,亲手“跑起来、弄坏它”,直到真正理解Agent为何会像一个能自主行动的系统。
从零搭建AI Agent:一场“可运行、可打破”的真实示范
这不是一场教你用框架的Agent演讲,而是一位工程师带你从最原始的循环、判断和工具调用开始,亲手“跑起来、弄坏它”,直到真正理解Agent为何会像一个能自主行动的系统。
为什么他坚持你要“运行并打破代码”
在演讲一开始,Cam 就明确了自己的立场:这不是一堂追求完美抽象的课程,而是一场工程体验。他说自己的第一个目标,是让你“体验一个Agent可能的最简单版本”,第二个目标更直接——“我希望你能舒服地去运行并打破这些代码”。在他看来,Agent的学习曲线并不来自概念复杂,而是来自你是否真正看见系统从确定性,逐渐滑向一种“好像活了”的状态。
这也是为什么他没有从任何成熟框架讲起。相反,他鼓励观众下载代码、亲自运行、制造错误,去感受当一个系统开始出现循环、判断和工具调用时,行为是如何发生质变的。他甚至用一句颇有画面感的话来形容这个过程:“看看代码在哪一刻,从确定性结果,变成你在和一个Agent玩。”这种教学方式,本身就是他对Agent的理解:不是配置出来的,而是演化出来的。
一个极简却本质的Agent定义
Cam给出了一个非常工程化的Agent定义:“Agent = LLM + Memory + Planning + Tools + 一个while loop。”这句话几乎贯穿了整场演讲。他进一步拆解:Memory 本质上是读和写;while loop 其实是条件判断加循环;Planning 只是把这些步骤按顺序组织起来。
重要的是,他强调这些不是框架魔法,而是你早就熟悉的编程结构。所谓Agent,并不是一个新物种,而是这些老组件在LLM加入后,被重新组合。通过这种拆解,他让听众意识到:即便你不用任何Agent框架,也完全可以自己拼出一个能工作的系统。这种理解,为后面所有代码示例打下了基础,也让“Agent”从一个营销名词,回到了软件工程的语境中。
从一次LLM调用,到“LLM当裁判”
代码演示从最普通的Chat Completion开始,几乎就是OpenAI文档里的Hello World。但真正的转折出现在“条件”这一步:当模型回答完问题后,Cam又发起了一次新的LLM调用,让它充当一个“严格的评审”。他在提示词里要求模型判断:这个回答是否已经完整解决了原始问题,并且强制返回一个JSON结构,只包含一个布尔值。
这个设计非常关键。因为从这一刻起,系统不再只是“问—答”,而是开始自我检查、自我决定是否继续。他用“average wing speed of a swallow”这个问题做示例,展示了LLM作为执行者和裁判时,输出仍然高度机械、确定。但这正是他想要的起点:一个完全可控、可预测的循环,让你看清Agent行为是如何一步步叠加出来的。
工具调用、并行执行,以及真正的转折点
当工具被引入,系统开始明显变复杂。Cam选择了一个封装Google搜索的API服务,手写了完整的tool schema,并演示了OpenAI模型如何返回“我要调用哪个工具、参数是什么”。他特别强调:SDK不会替你执行工具,客户端代码必须自己解析并完成调用,再把结果塞回对话中。
在后续的重构中,他把这套逻辑抽离成工具函数,并支持并行tool calls。当模型一次请求多个搜索时,代码会同时执行,再把带有tool call ID的结果返回给模型。直到这一步,系统仍然偏机械。真正的“拐点”出现在Step Four:规划。模型先生成一个to-do list,然后逐项调用工具、检查完成状态、再由“LLM as Judge”确认是否结束。Cam总结说:“while loop其实已经在LLM脑子里了。”此时,Agent终于呈现出一种持续推进目标的感觉。
总结
这场演讲最有价值的地方,不在于代码本身,而在于它揭示了一条学习Agent的真实路径:从确定性、可控的结构出发,一步步引入判断、工具和规划。Cam用一整套“能跑、会坏”的示例证明:你不需要框架,也能理解Agent的本质。如果你正在被各种Agent产品和概念包围,这种从零拆解、亲手搭建的视角,或许正是你重新建立判断力的起点。
关键词: AI Agent, 大语言模型, 工具调用, 提示工程, OpenAI
事实核查备注: 演讲者:Cam Lasser(视频中自称Cam);视频标题:Lets Build An Agent from Scratch;发布时间:2025-02-22;核心定义:Agent = LLM + Memory + Planning + Tools + while loop;技术要点:OpenAI Chat Completion、LLM as Judge、工具调用(Google搜索API服务)、并行tool calls、to-do list规划。