别再迷信提示工程:保险业如何用DSPy把LLM拉回工程正道
正在加载视频...
视频章节
在这场来自AXA德国的真实分享中,Jeronim Morina用保险业的复杂场景,拆解了为什么“提示工程”正在失效,以及DSPy如何把大语言模型重新变成一个可优化、可度量、可工程化的系统。
别再迷信提示工程:保险业如何用DSPy把LLM拉回工程正道
在这场来自AXA德国的真实分享中,Jeronim Morina用保险业的复杂场景,拆解了为什么“提示工程”正在失效,以及DSPy如何把大语言模型重新变成一个可优化、可度量、可工程化的系统。
从“我们都是坏AI工程师”说起:问题不在模型
为什么很多LLM项目一开始看起来很酷,最后却难以上线?Jeronim一上来就毫不留情地说:“I hate to break it to you, but we are all bad AI engineers.”问题并不在模型能力,而在工程师的工作方式。大家沉迷于不断试新模型、调Prompt、套工具,却忽略了一个事实:语言模型本身并不解决问题,它只在系统中才有价值。
他反复强调“第一性原理思考”。把LLM当成一个神奇API,希望“接上就能跑”,本身就是错误预期。真实世界的问题往往定义模糊、目标复杂,而我们却习惯用手写Prompt和“感觉还不错”的评估方式草草了事。Jeronim用一句极具讽刺意味的话总结这种状态:“looks good to me at 10”,这是很多AI系统停滞不前的真正原因。
这并不是反对工具,而是反对不加理解地使用工具。在他看来,AI工程正在从“工程”退化成“试错艺术”,而要重新成为工程师,就必须回到系统设计、问题拆解和可度量优化上来。
真实故事:AXA德国为何必须把LLM做成“慢而稳”的系统
与硅谷初创公司不同,AXA德国是一艘“油轮,甚至是破冰船”。保险没有实体资产,卖的是“安心感”,但背后却是极度依赖数据的业务。气候变化带来大量理赔激增,人工处理压力不断上升,这正是他们必须认真对待生成式AI的原因。
早在2023年,AXA德国就与OpenAI合作,在Azure上搭建了内部的Secure GPT平台,随后又宣布与Mistral AI合作,核心目标只有一个:在不牺牲数据安全的前提下,把LLM真正用进生产。这不是炫技,而是实打实地服务客服人员、改善客户体验。
Jeronim分享了一个具体设想:构建一个面向客户的聊天机器人,帮助他们理解晦涩的保险条款。听起来简单,但真正的难点在于——什么才是“正确答案”?他们必须拉着领域专家一起定义问题、编写示例,才能勉强让系统跑起来。这一步,也直接暴露了Prompt工程的脆弱和不可控。
Prompt工程的黑魔法,与它的极限
在实践中,他们几乎用遍了常见技巧:JSON约束、Chain of Thought、零样本学习、LangChain、Guardrails、Instructor……Jeronim自嘲道,谁没写过“please please output JSON”这样的Prompt呢?但问题是,这种方式极其脆弱,轻微的Prompt改动就可能导致系统整体崩溃。
为了“补锅”,团队不断增加链式调用和错误处理,系统却变得越来越复杂、越来越脆。直到他们意识到一个根本问题:他们几乎没有任何可用的评估。没有日志、没有Tracing,甚至连失败发生在哪一步都不清楚。
于是他们引入了开源工具Arize Phoenix做调用链追踪,同时花了几个月时间清洗生产数据,构建干净的输入-输出对。Jeronim反复提醒:“You cannot improve anything which you don’t measure.”更重要的是,要极度警惕数据泄漏,否则评估本身就是假的。
DSPy的价值:不是魔法,而是把LLM拆成可优化模块
在有了基础评估之后,他们才开始尝试DSPy。Jeronim的态度非常克制:这不是“装上就能好”的银弹,而且学习曲线很陡。但它解决了一个核心问题——如何把一个庞大而脆弱的Prompt,拆解成可以独立优化的模块。
在DSPy中,每个模块就像神经网络中的一层,有清晰的输入输出和优化目标。你需要先定义程序结构,再提供度量指标,DSPy才能通过不同策略(如指令优化、少量微调)去“编译”你的LLM程序。他特别提醒,不要把所有逻辑塞进一个巨大Prompt,否则DSPy也无从优化。
他们在德语场景下还遇到一个现实问题:现成的评估指标大多只适用于英文,Exact Match和Passage Match在德语上效果有限,最终只能自己写评估器。这再次印证了他的核心观点:工具永远替代不了你对问题本身的理解。
总结
这场分享并不是一份DSPy教程,而是一记工程师的警钟。Jeronim反复强调:先手写Prompt验证可行性,先做最基础的评估,再谈自动化优化。不要迷信“看起来不错”的结果,也不要过度复杂化系统。真正优秀的AI工程,来自第一性原理思考、清晰的问题定义,以及对数据和度量的敬畏。
关键词: DSPy, 提示工程, 大语言模型, AI工程, 保险科技
事实核查备注: 演讲者:Jeronim Morina;公司:AXA Germany;平台:Secure GPT(基于Azure);合作方:OpenAI、Mistral AI;工具与技术:DSPy、LangChain、Arize Phoenix、Chain of Thought、Zero-shot learning;核心观点原话包括“we are all bad AI engineers”“looks good to me at 10”“You cannot improve anything which you don’t measure”。