Intuit如何用大模型,把复杂税法讲给4400万普通人听

AI PM 编辑部 · 2025年07月23日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

这场来自Intuit高级工程师的分享,罕见地揭示了生成式AI在强监管行业中的真实落地方式:不是炫技,而是围绕安全、评估和用户理解构建系统能力。文章将还原TurboTax背后的LLM架构、关键技术取舍,以及他们踩过的坑。

Intuit如何用大模型,把复杂税法讲给4400万普通人听

这场来自Intuit高级工程师的分享,罕见地揭示了生成式AI在强监管行业中的真实落地方式:不是炫技,而是围绕安全、评估和用户理解构建系统能力。文章将还原TurboTax背后的LLM架构、关键技术取舍,以及他们踩过的坑。

从“算对税”到“讲明白税”:规模决定一切

这场演讲一开始,Jaspreet Singh就抛出了一个极具冲击力的数字:TurboTax在2023税年成功处理了4400万份报税表。这不是一个背景数据,而是整个技术决策的前提条件。在这个量级下,任何一个回答错误、解释不清,都会被成百上千万次放大。

他强调,Intuit做生成式AI的目标并不只是“自动算税”,而是让用户真正理解:为什么我能拿到这个抵扣?为什么今年的退税是这个数?正如他所说:“We want everybody to have high confidence in how their taxes are filed and understand them.” 在税务这样高度专业、又极易引发焦虑的场景中,‘解释能力’本身就是核心产品价值。

这也直接决定了他们对LLM的使用方式:不是开放式聊天机器人,而是嵌入在用户填写、选择、确认的每一个关键节点,用来扩展解释、澄清原因、说明结果。模型不是主角,而是一个随时待命的‘税务翻译官’。

GenOS与Intuit Assist:为什么现成方案不够用

当话题进入技术架构时,Jaspreet给出了一个清晰判断:市面上“开箱即用”的生成式AI工具,并不能满足税务场景的需求。原因很直接——税务是高度监管业务,安全、合规和可控性压倒一切。

为此,Intuit自建了一套名为GenOS(Generative OS)的生成式AI平台能力,上层产品体验(如TurboTax中的Intuit Assist)全部构建其上。GenOS并不是一个模型,而是一整套系统:模型接入、权限控制、安全审查、评估体系、以及与内部数据源的连接方式。

在具体模型选择上,他们在生产环境中使用的是Claude。Jaspreet并没有渲染模型能力本身,而是反复强调“适合这个用例”。对于需要长文本解释、稳定语气和高一致性的税务问答来说,模型的可控性和表现稳定性,比极限推理能力更重要。

这也体现了一个重要洞见:在企业级生成式AI落地中,真正的护城河不是模型,而是围绕模型搭建的操作系统。

Graph RAG与‘税务专家当提示工程师’

在如何让回答“既准又能解释清楚”这个问题上,Intuit的做法非常务实。他们大量使用基于Graph的RAG(检索增强生成)方案,把税法条款、内部知识和用户上下文结构化,再交给模型生成答案。

相比传统RAG只做文档检索,Graph RAG更强调知识之间的关系,这对于税务这种强依赖前置条件和例外条款的领域尤为关键。Jaspreet提到,这让系统在回答复杂问题时“much better”,尤其是在追问和细节澄清阶段。

另一个非常反直觉的做法是:Intuit让税务分析师而不是工程师,成为主要的提示工程师(prompt engineers)。原因很简单——他们最清楚什么解释是合规的、什么说法是不能出现的。工程团队负责把这些专业判断系统化,而不是替专家‘发明语言’。

这背后是一种成熟的角色分工:模型负责生成,专家负责边界,人来定义正确性。

LLM as a Judge:在高风险领域,评估比生成更重要

如果说前面的内容讲的是“怎么用”,那演讲中最有分量的一部分,其实是“怎么评估”。Jaspreet反复强调一句话:“Evaluate everything.”

Intuit构建了一整套自动化评估体系,其中一个关键手段就是“LLM as a Judge”——用大模型来评判另一个模型的输出。这些评估并不是主观打分,而是围绕明确指标展开,包括准确性(accuracy)、相关性(relevancy)和一致性(coherence)。

但他也明确指出,前提是你必须有“golden dataset”,也就是人工验证过的高质量基准数据,否则所有自动评估都是空中楼阁。在税务这种领域,评估系统本身就是产品安全的一部分。

最终目标并不是追求模型分数,而是确保用户体验‘seamless and useful’。当用户问出问题的那一刻,系统给出的解释,必须经得起监管、专家和时间的多重考验。

总结

这场分享最有价值的地方,并不在于某个模型或算法,而在于一种成熟的生成式AI落地方法论:从规模和风险出发设计系统,把专家知识嵌入流程,用评估体系而不是直觉保证质量。对于任何想在金融、医疗、法律等高风险行业使用LLM的团队来说,Intuit的经验都提供了一个极其现实的参考答案。


关键词: 大语言模型, 生成式AI, TurboTax, 检索增强生成, 提示工程

事实核查备注: Jaspreet Singh:Intuit高级工程师;TurboTax 2023税年处理约4400万份报税;Intuit自建生成式AI平台GenOS;生产模型使用Claude;采用Graph RAG方案;使用LLM as a Judge进行自动化评估;评估指标包括accuracy、relevancy、coherence。