把LLM当实习生:Almog Baku的AI应用工程三角
正在加载视频...
视频章节
这场演讲并不是在教你“怎么调Prompt”,而是试图回答一个更难的问题:为什么90%的LLM应用死在生产环境。Almog Baku用工程师和创业者的视角,提出了“LLM三角”方法论——模型、工程技术、数据,在SOP的约束下协同工作,才可能构建稳定、可复现的AI应用。
把LLM当实习生:Almog Baku的AI应用工程三角
这场演讲并不是在教你“怎么调Prompt”,而是试图回答一个更难的问题:为什么90%的LLM应用死在生产环境。Almog Baku用工程师和创业者的视角,提出了“LLM三角”方法论——模型、工程技术、数据,在SOP的约束下协同工作,才可能构建稳定、可复现的AI应用。
从“GPT外壳”到LLM原生应用:思维必须先转弯
为什么这么多LLM Demo看起来惊艳,却一到真实用户就崩?Almog一开场就点破了行业的集体幻觉:我们正在大量构建“GPT wrappers”,而不是LLM原生应用。他并不否认大模型的颠覆性,甚至直言“它们正在改变我们理解技术和软件的方式”,但问题在于——现在这只是冰山一角。
他给了一个极具工程师气质的类比:把LLM当成一种新的计算资源,就像CPU、GPU一样。没有人会直接用Python去“编写量子计算逻辑”,但我们却习惯直接用自然语言驱动LLM完成复杂任务,这本身就很混乱。于是就出现了一个常见现象:POC(概念验证)非常容易,真正达到稳定质量的生产系统却“该死地难”。
Almog总结了一个极端但真实的比例:“LLM原生应用,10%是模型,90%是艰苦的实验和数据驱动的工程工作。”他说完还自嘲了一句:“trust me about that, I’m an engineer, I just made this up。”但所有做过上线系统的人都懂,这句话一点也不好笑。
LLM三角的核心:模型、工程、数据,以及SOP
真正的核心方法论,在他提出的“LLM Triangle”里。三角的三个顶点分别是:模型(Model)、工程技术(Engineering Techniques)、数据(Data)。但驱动它们的,并不是某种魔法Prompt,而是第四个隐形原则:SOP(Standard Operating Procedure,标准操作流程)。
Almog借用了制造业的概念,讲了一个非常形象的故事:大型履约中心不会雇一群物理学博士来打包包裹,而是用清晰、可复现的步骤,让普通员工也能稳定交付结果。LLM也一样——“我们应该把LLM当成一个非常聪明、但对具体任务毫无经验的实习生”。
这句话成了全场最容易被记住的金句之一。你不能只告诉它目标,而是要给它“像食谱一样的逐步指令”。Prompt不再是灵感表达,而是流程规范。SOP的价值在于,它把隐性的专家经验显性化,让LLM有机会稳定地重复正确行为,而不是每次即兴发挥。
从专家脑海中“拷贝”认知:以落地页生成器为例
那SOP从哪来?Almog给了一个非常实操的答案:去“采访专家”。他用“Landing Page Builder(落地页生成器)”举例,完整展示了思路。
第一步不是写Prompt,而是假设你自己就是专家,或者真的去采访一个专家:他是如何创建一个落地页的?关键考虑因素是什么?然后把这些步骤写出来,再反过来让专家校正。这个过程几乎一定会出现反转——专家会说:“不不不,我真正做的不是这个,而是中间还有一步。”
这些“中间步骤”,正是最有价值的地方。比如,在“收集信息”和“写页面”之间,专家往往会先构建一个“要讲的故事”,但这对他来说太自然了,以至于从不主动说出来。Almog强调,我们的工作就是不断追问,挖出这些隐性的认知跳跃。
当流程变复杂时,他建议把SOP画成图(graph),因为真实流程往往包含循环、分支和递归。这一步不是为了好看,而是为了后续工程拆分服务。
Agent不是魔法:可控流程 vs 自治智能
在工程实现层面,Almog重点讨论了LLM原生架构和Agent。他给Agent下了一个非常工程化的定义:“Agent = LLM模型 + Prompt模板”。不是所有Agent都一样,有一次性的、可复用的、被动的,也有自治型的。
自治Agent的诱惑极大:给它目标和工具,让它自己决定怎么做。但Almog的态度非常克制——“它们优雅、快速、富有创造力,但极其难以调试,质量也不可持续”。他说得很现实:你永远不知道它会不会恰好在客户Demo时翻车。
相比之下,手工编排的流程(Flow Engineering)虽然昂贵、耗时,却能带来可预测性。每一步做什么、输出什么都清清楚楚,出了问题也能定位。Almog给出的建议是:不要二选一,而是给自治Agent“清晰的边界”。在可控范围内让它自由发挥,最坏情况也不会失控。
这不是理念之争,而是工程权衡(trade-off)。正如他说的:“life is full of tradeoffs”。
模型可以换,数据才是王国的根基
如果只能记住演讲中的一句话,那很可能是这句:“data is the king, without data we don’t have a kingdom。”在Almog看来,模型选择固然重要,但永远不是第一位。
他系统性地讲了模型选择的维度:任务复杂度、基础设施、延迟、成本、数据可得性。大模型(如OpenAI或Anthropic的模型)几乎能解决大多数问题,但慢且贵;小模型在简单任务或数据充足时非常高效。真正务实的路径是:先用大模型跑通系统,收集数据,再逐步优化,甚至微调。
而在“如何喂数据”这件事上,他花了最多时间。模型并不理解什么是“上下文”,它只看到一段文本。Prompt Template只是工程技巧,关键在于相关性。他对“needle in a haystack”式的大上下文非常怀疑,认为现实中是“很多针混在巨大草堆里”。
真正有效的方法,是少样本学习(Few-shot):与其解释概念,不如“show, don’t tell”。通过精心挑选的示例,模型会自动学会你想要的“语感”。更进一步,还可以结合向量数据库或逻辑规则,动态选择最合适的示例,这本质上已经接近检索增强生成(RAG)的思想。
总结
Almog Baku的分享,并没有给出任何“银弹式”的Prompt技巧,反而不断提醒听众接受现实的复杂性:稳定的LLM应用不是靠灵感,而是靠流程、数据和工程纪律。“LLM三角”并不是一个新名词的包装,而是一种工程世界观——模型会变,工具会变,但把智能系统当成可管理的生产系统,这个思路不会过时。对真正想把AI做进产品的人来说,这是一次必要的降温,也是一次非常诚实的指路。
关键词: 大语言模型, LLM原生应用, AI Agent, 提示工程, 检索增强生成
事实核查备注: 演讲者:Almog Baku;提出概念:LLM Triangle(模型、工程技术、数据,受SOP指导);关键比喻:把LLM当成“聪明但缺乏经验的实习生”;Agent定义:LLM模型+Prompt模板;模型公司提及:OpenAI、Anthropic、Google;技术概念:Few-shot learning、RAG、向量数据库、微调;产品示例:o1、ChatGPT;视频发布时间:2025-02-22。