别再点AI外卖：一次内部自建系统带来数百万ARR的真实配方

AI PM 编辑部 · 2025年06月03日 · 13 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一篇关于“为什么、以及什么时候该把AI留在厨房自己做”的实战文章。Jan Siml 用一个真实的内部项目，讲清楚了为何社交媒体推崇的复杂AI方案，往往会在企业内部失灵，以及他们如何用极简的系统、真实的业务指标，做出数百万美元ARR。

别再点AI外卖：一次内部自建系统带来数百万ARR的真实配方

这是一篇关于“为什么、以及什么时候该把AI留在厨房自己做”的实战文章。Jan Siml 用一个真实的内部项目，讲清楚了为何社交媒体推崇的复杂AI方案，往往会在企业内部失灵，以及他们如何用极简的系统、真实的业务指标，做出数百万美元ARR。

为什么大多数公司的AI，像一份又贵又凉的外卖

这一切要从一个极具画面感的比喻说起。Jan Siml 说，很多团队的AI战略就像点外卖：“看起来很美，价格不菲，送到却是半凉的，而且和照片完全不一样。”问题不在模型，而在期望值。刷一圈 LinkedIn 或 Twitter，你会看到满屏的“推荐前缀菜单”、多智能体、复杂评估和前沿模型——这些东西在“为数百万用户做 SaaS 展示”时合理，但放进一家公司的内部流程里，就像“给泡面加松露”。他们在 2024 年 Q1 面临经典的 build or buy 抉择，最终选择自建：两名开发者、十多个 sprint。结果不是一篇炫技论文，而是“一个带来数百万美元 ARR、并获得集团级奖项的系统”。他说得很直白：“想象一个大到财务不再问‘为什么要自建’的数字。”这是全文最重要的转折点：这不是反 SaaS，也不是反复杂技术，而是一个关于场景错配的警告。

什么时候该买，什么时候必须自己下厨

Jan 并没有把“自建”神话化。他用一个更精确的比喻解释差异：SaaS 像酒店自助餐——安全、通用，但永远不可能是“你奶奶的秘制酱汁”。买的方案在需要快速探索未知、需要大量第三方集成或跨行业最佳实践时非常合适；但当工作流已经属于你，数据也“电池在你手里”时，厨房优势会全面显现。内部团队知道成交前的每一次关键敲击，可以让一线同事参与校验输出；产品经理和用户“坐在隔壁”，一个 tweak 当天就能上线；UI 直接说用户的语言，基础设施也是“本来就要付的钱”。结果是成本被压到“几分钱”。他给出的经验法则非常克制：“买，用来探索未知；一旦工作流是你的，就应该自建。”而 Twitter 上流行的“巨型 eval、多智能体、RF 模型”，在他们这里会“看起来很香、贵得要命、还推迟上线”，典型的“演示友好、内部致命”。

第一性原则：盯住一个痛点和一个“价值事件”

真正的配方从这里开始。Jan 总结的第一条经验是：内部自建最大的优势，是你可以“在一个非常痛的 job-to-be-done 上挖得极深”，完全不用追求 TAM。他们要求自己在一开始就明确一个“价值事件”——那个最终能用美元衡量的结果。他反复强调：“记住这个概念，后面所有决策都会用到。”他们的起点极其朴素：一个简单的销售提醒。但他们不断追问：提醒是为了什么？接下来还需要做什么？这些答案不是来自头脑风暴，而是直接来自用户访谈。因为足够聚焦，系统始终保持简单，甚至“刻意避免任何 agentic 设计”。这段经历很重要，它反驳了一个常见误区：复杂不是规模的前提，深度才是。内部系统不需要取悦所有人，只需要把一件事做到“离钱最近”。

评估指标不会签合同，董事会只问钱

当系统开始跑起来，第二个关键转变发生在指标上。Jan 抛出一句极具冲击力的话：“离线 eval 永远不会签合同。”董事会不会问你的 F1 或 NDCG，只会问“它有没有拉动收入”。评估指标不是没用，而是“像烟雾报警器”，真正的核心是把每一步都打点，直到你能说清楚：“这个 AI 任务带来了 20 美元。”他们搭建了完整的 revenue funnel，把系统行为直接连到价值事件。一旦这样做，决策突然变得简单：讨论从“这个模型准不准”，变成“这个想法能卖多少钱”。更有意思的是，管理层开始要团队表现报告，于是他们干脆自动化报表、做排行榜——既制造了健康竞争，也让潜在的使用困难浮出水面。这不是 gamification，而是用数据把 AI 真正嵌入组织运行。

好数据胜过好模型，以及真正转动的收入飞轮

最后的抉择关乎资源投向。Jan 给出的答案可能让很多模型爱好者失望：“好数据，持续击败好模型。”他直言不讳地指出，O3 比 4.1 mini 贵 60 倍、慢一个数量级，上线后最大的变化只有成本和 eval。他们获得最大收益的方式，反而是“增加更多触发器、更深地理解用户真正需要什么”。听起来无聊，但有效。当系统不再等用户提问，而是主动推送“今天你需要知道的事”，并且进一步引导行动，而不只是节省时间，魔法才真正发生。因为“省下 30 分钟是没有价值的，除非你把它转化成高价值行为”。这种主动系统的 NPS 比聊天式产品高 20 个点，参与度高一个数量级。最终，紧密的反馈循环让用户不断给出改进建议，实验—采用—数据—收入形成了真正的飞轮。

总结

这场演讲的价值不在于某个模型选择，而在于一套极其务实的判断框架：从一个能直接带来钱的痛点开始，用真实收入而不是评估指标驱动决策，让系统主动引导行动，并把资源持续投入到数据和流程本身。正如 Jan 的总结：不要试图“一口吞下海洋”，要“顺着钱走，让用户带路”。对任何考虑自建 AI 的团队来说，这可能比再换一个模型更重要。

关键词：内部自建AI， AI Agent，模型部署， AI应用，收入驱动

事实核查备注：视频作者：Jan Siml；频道：AI Engineer；发布时间：2025-06-03；关键时间点：Q1 2024；资源投入：2名开发者、10+ sprint；结果：数百万美元 ARR（未披露具体数字）；原话引用包括“外卖比喻”“offline evals never sign a contract”“good data beats great models”；模型对比：O3 vs 4.1 mini（成本约60倍差异）；指标提及：F1、NDCG、NPS/MPS。

返回文章列表