数据准备就绪是个神话:如何在混乱数据上构建可靠AI
正在加载视频...
视频章节
这场演讲直指企业AI落地的最大幻觉:只要把数据“准备好”,AI就能可靠工作。Anushrut Gupta用大量真实场景说明,问题不在数据工具,而在AI不懂业务语言,并提出一种“像新人分析师一样成长”的Agentic语义层方案。
数据准备就绪是个神话:如何在混乱数据上构建可靠AI
这场演讲直指企业AI落地的最大幻觉:只要把数据“准备好”,AI就能可靠工作。Anushrut Gupta用大量真实场景说明,问题不在数据工具,而在AI不懂业务语言,并提出一种“像新人分析师一样成长”的Agentic语义层方案。
为什么“数据准备就绪”永远不会发生
演讲一开始,Anushrut Gupta就用一个近乎残酷的提问击中了现场的大多数人:谁的数据是完美的?干净、注释齐全、字段命名统一、语义清晰?答案当然是——没有人举手。
他描述的数据场景几乎是所有企业的真实写照:表名和字段名充满缩写与历史遗留(例如 cst_n、rev_amount_usd),字段类型含糊不清(active 是布尔值、0/1、还是可空字段?),不同系统中“同一个概念”却有完全不同的表达方式。更糟的是,这些系统之间缺乏明确映射:收入是美元还是美分?是浮点数还是整数?没人能拍着胸脯说清楚。
问题在于,整个行业长期陷入一个集体幻觉:只要花足够多的时间和钱,把数据“整理好”,AI自然就能可靠运行。Gupta毫不留情地指出:这是一个“pipe dream”。数据域每个季度都在变化,表结构、业务流程、定义持续演进,所谓的“完美数据状态”根本不存在。
他回顾了过去几年的技术浪潮:2019年,企业被告知只要统一进 Snowflake 或 Databricks;后来又寄希望于主数据管理(MDM);2023年,语义层和AI Agent被视为新希望。但到2025年,行业依然在等待“完美数据”的那一天。引用麦肯锡的数据,他提醒听众:一家《财富》500强公司平均每年因数据质量问题损失约2.5亿美元,而这种损失并不会因为“再等等数据治理”而自动消失。
语义层、知识图谱为何也救不了AI
如果问题不在数据本身,那是不是更聪明的语义层或知识图谱就能解决?Gupta的答案依然是否定的。
他先谈语义层。许多团队尝试在语义层中手工定义业务指标,比如“客户获取成本 = 市场支出 / 新客户数”。但这只是冰山一角:市场支出是否包含品牌投放?新客户是首次购买,还是被重新激活的老客户?是否考虑季节性?失败试用算不算?他反问道:“你不可能预先定义所有边界条件。”当语义层依赖人工持续维护时,它注定跟不上业务的复杂性和变化速度。
接着是知识图谱和 Graph RAG。Gupta举了一个极简却致命的例子:销售数据中,图谱可以清楚表示“deal → stage → close date”,但当用户问“哪些交易有风险?”时,图谱立刻失语。“有风险”究竟意味着什么?关键人离职?阶段停留过久?还是预算被削减?这些判断高度依赖业务语境,而不是结构化关系。
更现实的问题是规模:你不可能把 Snowflake 里数十亿行的事实数据完整映射进图数据库。于是他得出一个重要结论:问题不在于我们需要“更好的语义层”或“更强的图数据库”,而在于AI始终不理解企业自己的语言。
真正的缺口:AI不懂你的业务语言
在Gupta看来,所有技术方案失效的根本原因只有一个:AI并不懂企业内部的“部落知识”(tribal knowledge)。
他用几个极其日常却致命的例子说明这一点:“GM”在财务里是毛利(gross margin),在HR里却是总经理(general manager);“conversion”“active customer”“quarter”在不同团队中都有不同定义。这些知识很少被完整写进文档,而是存在于员工的经验、共识和长期协作中。
传统上,企业是如何解决这个问题的?答案是人。业务用户提出问题后,会找到一位资深分析师或工程师。这些人既懂SQL,也懂公司内部的数据系统,更重要的是,他们知道“你真正想问的是什么”。他们能给出100%可靠的答案,并解释推导过程,这种可解释性正是信任的来源。
而今天的“原生”大语言模型并不具备这种能力。Gupta评价得很克制却尖锐:“它们非常聪明,能做很多酷的事情,但它们不理解你的业务。”当企业试图用RAG或prompt工程弥补这一缺口时,本质上仍然是在外部贴补上下文,而不是让AI真正学会这门“语言”。
Agentic语义层:让AI像新人分析师一样成长
真正的解决方案,在Gupta看来,是把语义层变成“Agentic”的。
他提出一个极具画面感的类比:把AI当成一个“Day Zero”的新分析师。入职第一天,它很聪明,但对业务一无所知。它会犯错,而人类会纠正它:“我说这个指标时,真正的意思是这样。”关键在于,这个系统必须是可纠正、可解释、可引导的,并且能在使用过程中持续学习。
在PromQL的实现中,大语言模型并不直接生成答案,而是生成一种确定性的DSL(领域特定语言)执行计划。Gupta强调了这一点的重要性:“如果让LLM直接生成答案,你只是希望它的幻觉是对的。”因此,他们将LLM的职责限制在“规划”,而执行则交给确定性的运行时和分布式查询引擎,直接对接不同数据源。
这个设计刻意避开了常见的RAG路径:不把查询结果再喂回模型重新生成答案,而是直接把执行结果展示给用户。这样,系统既能利用LLM的语言理解能力,又能保持分析结果的可重复性和可靠性。
在现场演示中,一个看似简单的问题——“按收入排名的前五大客户是谁?”——被拆解为对“收入”定义、跨表语义对齐、执行路径选择的一整套过程。真正的价值不在结果本身,而在于AI终于开始像一名可以被信任、被纠正、会成长的分析师。
总结
这场演讲最重要的启发在于,它把AI可靠性的问题从“数据是否足够干净”转移到了“AI是否学会业务语言”。语义层、知识图谱、RAG都不是银弹,真正稀缺的是把隐性业务知识转化为可学习、可纠正系统的能力。与其等待永远不会到来的“数据准备就绪”,不如构建一个能在混乱现实中不断成长的AI。
关键词: AI应用, 语义层, AI Agent, 数据质量, 大语言模型
事实核查备注: 演讲者:Anushrut Gupta;公司/产品:PromptQL / PromQL;核心观点:Data readiness is a myth;引用数据:麦肯锡称财富500强平均每年因数据质量损失约2.5亿美元;技术概念:语义层、知识图谱、Graph RAG、Agentic AI、DSL、LLM hallucination