40位YC创始人眼中的AI现实:速度、幻觉与人类位置

AI PM 编辑部 · 2023年09月21日 · 5 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一场罕见的群体式对话:40位Y Combinator背景的AI创始人,毫不修饰地谈论他们每天真实使用、构建和怀疑的人工智能。从写婚礼致辞到自动改UI代码,从创造力爆发到幻觉失控,这些一线经验勾勒出当下AI最真实的能力边界。

40位YC创始人眼中的AI现实:速度、幻觉与人类位置

这是一场罕见的群体式对话:40位Y Combinator背景的AI创始人,毫不修饰地谈论他们每天真实使用、构建和怀疑的人工智能。从写婚礼致辞到自动改UI代码,从创造力爆发到幻觉失控,这些一线经验勾勒出当下AI最真实的能力边界。

从写婚礼致辞到语音分身:AI已渗入最私人的场景

理解AI的最好方式,不是看论文,而是看它被用在了哪些“不该那么高科技”的地方。这场讨论一开始,就被一个略带尴尬却极其真实的故事打开:一位创始人坦言,自己用AI来“写婚礼致辞”。他说:“I don't know if I should say this but… writing speeches for weddings。”现场随即爆笑,但这个细节极具代表性——AI最先规模化渗透的,并不是宏大产业,而是人类最日常、最情绪化的表达。

类似的例子不断出现。有人把AI语音接入了自己的语音信箱,让“AI版自己”去接电话,甚至能调侃来电者。创始人形容这是一个“boy spot”,会用特定人设说话。这里并没有复杂的技术炫耀,但却揭示了一个关键变化:语音AI已经从“听起来像机器人”,进化到“足以承担个人身份的一部分”。正如视频中所说:“now it's just indistinguishable from a human voice。”

这一点在创作者和娱乐型产品中尤为重要。讨论者明确区分了不同场景的容错率:如果是娱乐,“as long as it's funny it doesn't matter”;但如果是自动驾驶或医疗,后果完全不同。AI并不是统一进步的,它在不同生活切面中的成熟度差异巨大。

这些看似轻松的故事背后,隐藏着一个重要判断:AI真正改变世界的方式,不是通过一次革命性发布,而是通过无数微小、甚至有点“不体面”的用途,慢慢嵌入人类生活。正是这些私人化、情绪化、低门槛的应用,构成了AI扩散的第一推动力。

“描述你想要什么”:编程正在从写代码变成叙述意图

如果说生活层面的变化让人会心一笑,那么在软件开发领域,AI带来的则是实打实的效率冲击。一位创始人直言:“it’s just making me code infinitely faster。”他们每天打开AI工具,让它参与编码,已经成为默认流程。

最具象的例子来自UI开发。你不再需要逐行修改代码,只要告诉模型:“build dark mode”,它就能“edit all the code to implement that feature”。这并不是代码片段级的补全,而是跨文件、跨逻辑的整体修改。对开发者而言,角色正在发生变化:从具体实现者,转向需求的叙述者。

一位创始人用一个极具画面感的比喻总结了这一趋势:未来的人类更像“narrators”,负责描述目标和约束,而模型负责生成具体实现,而且“even better than what humans would do if they're doing it themselves”。但他也强调,这并不意味着人类变得不重要,恰恰相反。

关键能力正在迁移。真正稀缺的,不再是记住API或语法,而是理解问题本身、理解技术边界,以及如何有效地利用这些工具。正如他们所说:“the fundamental problem solving skills are always going to be really needed。”当AI可以写代码,谁来判断代码是否应该被写?谁来定义“更好”?

这一判断对创业者尤其重要。速度优势会被迅速抹平,但对系统、约束和目标的深刻理解,仍然是无法外包给模型的核心竞争力。

AI意外擅长创意,却仍然分不清真假

生成式AI最反直觉的地方,在于它擅长的方向。多位创始人一致认为,AI在“我们原以为它会很差”的领域,表现得异常出色——尤其是创意和叙事。一位参与者直言:“they're really good at what we thought they would be really bad at, which is creative storytelling work。”

讨论中展示了多个例子:生成“我、Eric和Rihanna在海滩打排球”的图片,或是目标更宏大的愿景——“make software so anyone can make South Park from their bedroom”。这些例子并非炫技,而是在强调:创作的门槛正在被系统性地降低。

与此同时,语音AI和语义搜索被反复提及。过去“really didn't work”的语义搜索,如今在大语言模型的阅读能力加持下,变成了核心能力。模型可以理解任意文本,并回答相关问题。这一点在垂直行业尤为关键,例如时尚领域,需要不断微调模型以跟上“mermaid core”“ballet core”这类快速变化的术语。

但光明面背后,是同样被反复提及的阴影:幻觉。创始人给出了一个清晰定义:“AI generating something that doesn't exist but looks like it might or should exist。”模型可以讲故事,却“surprisingly bad at knowing the difference between what's true and false”。

更复杂的是,行业为减少幻觉所做的努力,又引入了新的问题:模型开始否认自己“知道”的事实,声称从未听说过明明存在于训练数据中的内容。正如一位创始人所说,这有点像人类——我们记住了知识,却忘了来源。信任问题,仍然是生成式AI绕不开的核心挑战。

85%的答案与人类回路:如何驯服不确定的模型

在工程实践层面,创始人们给出了一个相当一致的评估:现有工具通常只能给出“85%到90%”的解决方案。剩下的部分,决定了产品是否真正有价值。这正是提示工程和流程设计存在的意义。

一位参与者强调,复杂结果往往来自“a bunch of simple operations”。关键在于给模型足够清晰的结构、明确的任务边界,并把人类原本的思考过程,拆解成模型可以稳定执行的步骤。这不是一次性工作,而是持续的调试:“debug and tune and iterate on your prompts”。

挑战的根源,在于AI系统正处在确定性软件与概率模型的交界处。过去,程序“followed your instructions to a T”;现在,相同输入可能得到不同输出。这种不可靠性,在娱乐领域是优势,但在高风险场景则是隐患。

因此,“human in the loop”被反复强调。人类需要监督模型的输出,判断修正是否合理,防止幻觉扩散。这不仅是技术问题,也是价值观问题。一位创始人明确表示:“this is technology in service of humans… we get to keep human say”。

这也许是整场讨论最重要的共识:AI并不是要替代人类决策,而是迫使我们更认真地思考,哪些判断必须由人来做,哪些可以交给机器。

总结

这40位YC创始人的讨论,没有宏大口号,只有密集的一线经验:AI让创作和开发前所未有地快速,也以前所未有的方式暴露了不确定性。它擅长创意,却不擅长判断真假;能给出85%的答案,却需要人类补完最后15%。真正的机会,不在于盲目信任或恐惧AI,而在于理解它的边界,并把人类判断放在最关键的位置。


关键词: 生成式AI, 大语言模型, 幻觉, 提示工程, Y Combinator

事实核查备注: 视频来源:Y Combinator;讨论对象:40位AI创始人;引用原话包括“writing speeches for weddings”“it’s just making me code infinitely faster”“build dark mode”“indistinguishable from a human voice”“85 to 90 solution”“AI generating something that doesn't exist”;涉及产品:ChatGPT;涉及概念:生成式AI、大语言模型、语义搜索、幻觉、人类反馈回路。