正在加载视频...
视频章节
这是一篇关于“为什么、以及什么时候该把AI留在厨房自己做”的实战文章。Jan Siml 用一个真实的内部项目,讲清楚了为何社交媒体推崇的复杂AI方案,往往会在企业内部失灵,以及他们如何用极简的系统、真实的业务指标,做出数百万美元ARR。
别再点AI外卖:一次内部自建系统带来数百万ARR的真实配方
这是一篇关于“为什么、以及什么时候该把AI留在厨房自己做”的实战文章。Jan Siml 用一个真实的内部项目,讲清楚了为何社交媒体推崇的复杂AI方案,往往会在企业内部失灵,以及他们如何用极简的系统、真实的业务指标,做出数百万美元ARR。
为什么大多数公司的AI,像一份又贵又凉的外卖
这一切要从一个极具画面感的比喻说起。Jan Siml 说,很多团队的AI战略就像点外卖:“看起来很美,价格不菲,送到却是半凉的,而且和照片完全不一样。”问题不在模型,而在期望值。刷一圈 LinkedIn 或 Twitter,你会看到满屏的“推荐前缀菜单”、多智能体、复杂评估和前沿模型——这些东西在“为数百万用户做 SaaS 展示”时合理,但放进一家公司的内部流程里,就像“给泡面加松露”。他们在 2024 年 Q1 面临经典的 build or buy 抉择,最终选择自建:两名开发者、十多个 sprint。结果不是一篇炫技论文,而是“一个带来数百万美元 ARR、并获得集团级奖项的系统”。他说得很直白:“想象一个大到财务不再问‘为什么要自建’的数字。”这是全文最重要的转折点:这不是反 SaaS,也不是反复杂技术,而是一个关于场景错配的警告。
什么时候该买,什么时候必须自己下厨
Jan 并没有把“自建”神话化。他用一个更精确的比喻解释差异:SaaS 像酒店自助餐——安全、通用,但永远不可能是“你奶奶的秘制酱汁”。买的方案在需要快速探索未知、需要大量第三方集成或跨行业最佳实践时非常合适;但当工作流已经属于你,数据也“电池在你手里”时,厨房优势会全面显现。内部团队知道成交前的每一次关键敲击,可以让一线同事参与校验输出;产品经理和用户“坐在隔壁”,一个 tweak 当天就能上线;UI 直接说用户的语言,基础设施也是“本来就要付的钱”。结果是成本被压到“几分钱”。他给出的经验法则非常克制:“买,用来探索未知;一旦工作流是你的,就应该自建。”而 Twitter 上流行的“巨型 eval、多智能体、RF 模型”,在他们这里会“看起来很香、贵得要命、还推迟上线”,典型的“演示友好、内部致命”。
第一性原则:盯住一个痛点和一个“价值事件”
真正的配方从这里开始。Jan 总结的第一条经验是:内部自建最大的优势,是你可以“在一个非常痛的 job-to-be-done 上挖得极深”,完全不用追求 TAM。他们要求自己在一开始就明确一个“价值事件”——那个最终能用美元衡量的结果。他反复强调:“记住这个概念,后面所有决策都会用到。”他们的起点极其朴素:一个简单的销售提醒。但他们不断追问:提醒是为了什么?接下来还需要做什么?这些答案不是来自头脑风暴,而是直接来自用户访谈。因为足够聚焦,系统始终保持简单,甚至“刻意避免任何 agentic 设计”。这段经历很重要,它反驳了一个常见误区:复杂不是规模的前提,深度才是。内部系统不需要取悦所有人,只需要把一件事做到“离钱最近”。
评估指标不会签合同,董事会只问钱
当系统开始跑起来,第二个关键转变发生在指标上。Jan 抛出一句极具冲击力的话:“离线 eval 永远不会签合同。”董事会不会问你的 F1 或 NDCG,只会问“它有没有拉动收入”。评估指标不是没用,而是“像烟雾报警器”,真正的核心是把每一步都打点,直到你能说清楚:“这个 AI 任务带来了 20 美元。”他们搭建了完整的 revenue funnel,把系统行为直接连到价值事件。一旦这样做,决策突然变得简单:讨论从“这个模型准不准”,变成“这个想法能卖多少钱”。更有意思的是,管理层开始要团队表现报告,于是他们干脆自动化报表、做排行榜——既制造了健康竞争,也让潜在的使用困难浮出水面。这不是 gamification,而是用数据把 AI 真正嵌入组织运行。
好数据胜过好模型,以及真正转动的收入飞轮
最后的抉择关乎资源投向。Jan 给出的答案可能让很多模型爱好者失望:“好数据,持续击败好模型。”他直言不讳地指出,O3 比 4.1 mini 贵 60 倍、慢一个数量级,上线后最大的变化只有成本和 eval。他们获得最大收益的方式,反而是“增加更多触发器、更深地理解用户真正需要什么”。听起来无聊,但有效。当系统不再等用户提问,而是主动推送“今天你需要知道的事”,并且进一步引导行动,而不只是节省时间,魔法才真正发生。因为“省下 30 分钟是没有价值的,除非你把它转化成高价值行为”。这种主动系统的 NPS 比聊天式产品高 20 个点,参与度高一个数量级。最终,紧密的反馈循环让用户不断给出改进建议,实验—采用—数据—收入形成了真正的飞轮。
总结
这场演讲的价值不在于某个模型选择,而在于一套极其务实的判断框架:从一个能直接带来钱的痛点开始,用真实收入而不是评估指标驱动决策,让系统主动引导行动,并把资源持续投入到数据和流程本身。正如 Jan 的总结:不要试图“一口吞下海洋”,要“顺着钱走,让用户带路”。对任何考虑自建 AI 的团队来说,这可能比再换一个模型更重要。
关键词: 内部自建AI, AI Agent, 模型部署, AI应用, 收入驱动
事实核查备注: 视频作者:Jan Siml;频道:AI Engineer;发布时间:2025-06-03;关键时间点:Q1 2024;资源投入:2名开发者、10+ sprint;结果:数百万美元 ARR(未披露具体数字);原话引用包括“外卖比喻”“offline evals never sign a contract”“good data beats great models”;模型对比:O3 vs 4.1 mini(成本约60倍差异);指标提及:F1、NDCG、NPS/MPS。