把LLM当实习生：Almog Baku的AI应用工程三角

AI PM 编辑部 · 2025年02月22日 · 25 阅读 · AI/人工智能

闭源模型 AI应用检索增强生成少样本学习 AI Agent 模型部署提示工程开源模型向量数据库 GPU

正在加载视频...

视频章节

这场演讲并不是在教你“怎么调Prompt”，而是试图回答一个更难的问题：为什么90%的LLM应用死在生产环境。Almog Baku用工程师和创业者的视角，提出了“LLM三角”方法论——模型、工程技术、数据，在SOP的约束下协同工作，才可能构建稳定、可复现的AI应用。

把LLM当实习生：Almog Baku的AI应用工程三角

这场演讲并不是在教你“怎么调Prompt”，而是试图回答一个更难的问题：为什么90%的LLM应用死在生产环境。Almog Baku用工程师和创业者的视角，提出了“LLM三角”方法论——模型、工程技术、数据，在SOP的约束下协同工作，才可能构建稳定、可复现的AI应用。

从“GPT外壳”到LLM原生应用：思维必须先转弯

为什么这么多LLM Demo看起来惊艳，却一到真实用户就崩？Almog一开场就点破了行业的集体幻觉：我们正在大量构建“GPT wrappers”，而不是LLM原生应用。他并不否认大模型的颠覆性，甚至直言“它们正在改变我们理解技术和软件的方式”，但问题在于——现在这只是冰山一角。

他给了一个极具工程师气质的类比：把LLM当成一种新的计算资源，就像CPU、GPU一样。没有人会直接用Python去“编写量子计算逻辑”，但我们却习惯直接用自然语言驱动LLM完成复杂任务，这本身就很混乱。于是就出现了一个常见现象：POC（概念验证）非常容易，真正达到稳定质量的生产系统却“该死地难”。

Almog总结了一个极端但真实的比例：“LLM原生应用，10%是模型，90%是艰苦的实验和数据驱动的工程工作。”他说完还自嘲了一句：“trust me about that， I’m an engineer， I just made this up。”但所有做过上线系统的人都懂，这句话一点也不好笑。

LLM三角的核心：模型、工程、数据，以及SOP

真正的核心方法论，在他提出的“LLM Triangle”里。三角的三个顶点分别是：模型（Model）、工程技术（Engineering Techniques）、数据（Data）。但驱动它们的，并不是某种魔法Prompt，而是第四个隐形原则：SOP（Standard Operating Procedure，标准操作流程）。

Almog借用了制造业的概念，讲了一个非常形象的故事：大型履约中心不会雇一群物理学博士来打包包裹，而是用清晰、可复现的步骤，让普通员工也能稳定交付结果。LLM也一样——“我们应该把LLM当成一个非常聪明、但对具体任务毫无经验的实习生”。

这句话成了全场最容易被记住的金句之一。你不能只告诉它目标，而是要给它“像食谱一样的逐步指令”。Prompt不再是灵感表达，而是流程规范。SOP的价值在于，它把隐性的专家经验显性化，让LLM有机会稳定地重复正确行为，而不是每次即兴发挥。

从专家脑海中“拷贝”认知：以落地页生成器为例

那SOP从哪来？Almog给了一个非常实操的答案：去“采访专家”。他用“Landing Page Builder（落地页生成器）”举例，完整展示了思路。

第一步不是写Prompt，而是假设你自己就是专家，或者真的去采访一个专家：他是如何创建一个落地页的？关键考虑因素是什么？然后把这些步骤写出来，再反过来让专家校正。这个过程几乎一定会出现反转——专家会说：“不不不，我真正做的不是这个，而是中间还有一步。”

这些“中间步骤”，正是最有价值的地方。比如，在“收集信息”和“写页面”之间，专家往往会先构建一个“要讲的故事”，但这对他来说太自然了，以至于从不主动说出来。Almog强调，我们的工作就是不断追问，挖出这些隐性的认知跳跃。

当流程变复杂时，他建议把SOP画成图（graph），因为真实流程往往包含循环、分支和递归。这一步不是为了好看，而是为了后续工程拆分服务。

Agent不是魔法：可控流程 vs 自治智能

在工程实现层面，Almog重点讨论了LLM原生架构和Agent。他给Agent下了一个非常工程化的定义：“Agent = LLM模型 + Prompt模板”。不是所有Agent都一样，有一次性的、可复用的、被动的，也有自治型的。

自治Agent的诱惑极大：给它目标和工具，让它自己决定怎么做。但Almog的态度非常克制——“它们优雅、快速、富有创造力，但极其难以调试，质量也不可持续”。他说得很现实：你永远不知道它会不会恰好在客户Demo时翻车。

相比之下，手工编排的流程（Flow Engineering）虽然昂贵、耗时，却能带来可预测性。每一步做什么、输出什么都清清楚楚，出了问题也能定位。Almog给出的建议是：不要二选一，而是给自治Agent“清晰的边界”。在可控范围内让它自由发挥，最坏情况也不会失控。

这不是理念之争，而是工程权衡（trade-off）。正如他说的：“life is full of tradeoffs”。

模型可以换，数据才是王国的根基

如果只能记住演讲中的一句话，那很可能是这句：“data is the king， without data we don’t have a kingdom。”在Almog看来，模型选择固然重要，但永远不是第一位。

他系统性地讲了模型选择的维度：任务复杂度、基础设施、延迟、成本、数据可得性。大模型（如OpenAI或Anthropic的模型）几乎能解决大多数问题，但慢且贵；小模型在简单任务或数据充足时非常高效。真正务实的路径是：先用大模型跑通系统，收集数据，再逐步优化，甚至微调。

而在“如何喂数据”这件事上，他花了最多时间。模型并不理解什么是“上下文”，它只看到一段文本。Prompt Template只是工程技巧，关键在于相关性。他对“needle in a haystack”式的大上下文非常怀疑，认为现实中是“很多针混在巨大草堆里”。

真正有效的方法，是少样本学习（Few-shot）：与其解释概念，不如“show， don’t tell”。通过精心挑选的示例，模型会自动学会你想要的“语感”。更进一步，还可以结合向量数据库或逻辑规则，动态选择最合适的示例，这本质上已经接近检索增强生成（RAG）的思想。

总结

Almog Baku的分享，并没有给出任何“银弹式”的Prompt技巧，反而不断提醒听众接受现实的复杂性：稳定的LLM应用不是靠灵感，而是靠流程、数据和工程纪律。“LLM三角”并不是一个新名词的包装，而是一种工程世界观——模型会变，工具会变，但把智能系统当成可管理的生产系统，这个思路不会过时。对真正想把AI做进产品的人来说，这是一次必要的降温，也是一次非常诚实的指路。

关键词：大语言模型， LLM原生应用， AI Agent，提示工程，检索增强生成

事实核查备注：演讲者：Almog Baku；提出概念：LLM Triangle（模型、工程技术、数据，受SOP指导）；关键比喻：把LLM当成“聪明但缺乏经验的实习生”；Agent定义：LLM模型+Prompt模板；模型公司提及：OpenAI、Anthropic、Google；技术概念：Few-shot learning、RAG、向量数据库、微调；产品示例：o1、ChatGPT；视频发布时间：2025-02-22。

返回文章列表