从零搭建AI Agent：一场“可运行、可打破”的真实示范

AI PM 编辑部 · 2025年02月22日 · 22 阅读 · AI/人工智能

AI应用 AI工具推理 AI搜索 AI Agent 提示工程大语言模型 Google OpenAI

正在加载视频...

视频章节

这不是一场教你用框架的Agent演讲，而是一位工程师带你从最原始的循环、判断和工具调用开始，亲手“跑起来、弄坏它”，直到真正理解Agent为何会像一个能自主行动的系统。

从零搭建AI Agent：一场“可运行、可打破”的真实示范

这不是一场教你用框架的Agent演讲，而是一位工程师带你从最原始的循环、判断和工具调用开始，亲手“跑起来、弄坏它”，直到真正理解Agent为何会像一个能自主行动的系统。

为什么他坚持你要“运行并打破代码”

在演讲一开始，Cam 就明确了自己的立场：这不是一堂追求完美抽象的课程，而是一场工程体验。他说自己的第一个目标，是让你“体验一个Agent可能的最简单版本”，第二个目标更直接——“我希望你能舒服地去运行并打破这些代码”。在他看来，Agent的学习曲线并不来自概念复杂，而是来自你是否真正看见系统从确定性，逐渐滑向一种“好像活了”的状态。

这也是为什么他没有从任何成熟框架讲起。相反，他鼓励观众下载代码、亲自运行、制造错误，去感受当一个系统开始出现循环、判断和工具调用时，行为是如何发生质变的。他甚至用一句颇有画面感的话来形容这个过程：“看看代码在哪一刻，从确定性结果，变成你在和一个Agent玩。”这种教学方式，本身就是他对Agent的理解：不是配置出来的，而是演化出来的。

一个极简却本质的Agent定义

Cam给出了一个非常工程化的Agent定义：“Agent = LLM + Memory + Planning + Tools + 一个while loop。”这句话几乎贯穿了整场演讲。他进一步拆解：Memory 本质上是读和写；while loop 其实是条件判断加循环；Planning 只是把这些步骤按顺序组织起来。

重要的是，他强调这些不是框架魔法，而是你早就熟悉的编程结构。所谓Agent，并不是一个新物种，而是这些老组件在LLM加入后，被重新组合。通过这种拆解，他让听众意识到：即便你不用任何Agent框架，也完全可以自己拼出一个能工作的系统。这种理解，为后面所有代码示例打下了基础，也让“Agent”从一个营销名词，回到了软件工程的语境中。

从一次LLM调用，到“LLM当裁判”

代码演示从最普通的Chat Completion开始，几乎就是OpenAI文档里的Hello World。但真正的转折出现在“条件”这一步：当模型回答完问题后，Cam又发起了一次新的LLM调用，让它充当一个“严格的评审”。他在提示词里要求模型判断：这个回答是否已经完整解决了原始问题，并且强制返回一个JSON结构，只包含一个布尔值。

这个设计非常关键。因为从这一刻起，系统不再只是“问—答”，而是开始自我检查、自我决定是否继续。他用“average wing speed of a swallow”这个问题做示例，展示了LLM作为执行者和裁判时，输出仍然高度机械、确定。但这正是他想要的起点：一个完全可控、可预测的循环，让你看清Agent行为是如何一步步叠加出来的。

工具调用、并行执行，以及真正的转折点

当工具被引入，系统开始明显变复杂。Cam选择了一个封装Google搜索的API服务，手写了完整的tool schema，并演示了OpenAI模型如何返回“我要调用哪个工具、参数是什么”。他特别强调：SDK不会替你执行工具，客户端代码必须自己解析并完成调用，再把结果塞回对话中。

在后续的重构中，他把这套逻辑抽离成工具函数，并支持并行tool calls。当模型一次请求多个搜索时，代码会同时执行，再把带有tool call ID的结果返回给模型。直到这一步，系统仍然偏机械。真正的“拐点”出现在Step Four：规划。模型先生成一个to-do list，然后逐项调用工具、检查完成状态、再由“LLM as Judge”确认是否结束。Cam总结说：“while loop其实已经在LLM脑子里了。”此时，Agent终于呈现出一种持续推进目标的感觉。

总结

这场演讲最有价值的地方，不在于代码本身，而在于它揭示了一条学习Agent的真实路径：从确定性、可控的结构出发，一步步引入判断、工具和规划。Cam用一整套“能跑、会坏”的示例证明：你不需要框架，也能理解Agent的本质。如果你正在被各种Agent产品和概念包围，这种从零拆解、亲手搭建的视角，或许正是你重新建立判断力的起点。

关键词： AI Agent，大语言模型，工具调用，提示工程， OpenAI

事实核查备注：演讲者：Cam Lasser（视频中自称Cam）；视频标题：Lets Build An Agent from Scratch；发布时间：2025-02-22；核心定义：Agent = LLM + Memory + Planning + Tools + while loop；技术要点：OpenAI Chat Completion、LLM as Judge、工具调用（Google搜索API服务）、并行tool calls、to-do list规划。

返回文章列表