当书会“回应你”:他用AI把阅读变成一场对话式体验
正在加载视频...
视频章节
这场演讲展示了一种全新的阅读范式:书不再只是静态文字,而是能听、能问、能理解上下文的互动体验。演讲者通过真实的个人困惑出发,讲述了如何用AI重构阅读,并分享了隐藏AI、强调人类审美的产品方法论。
当书会“回应你”:他用AI把阅读变成一场对话式体验
这场演讲展示了一种全新的阅读范式:书不再只是静态文字,而是能听、能问、能理解上下文的互动体验。演讲者通过真实的个人困惑出发,讲述了如何用AI重构阅读,并分享了隐藏AI、强调人类审美的产品方法论。
从“看不懂人物”开始:一个真实而偶然的起点
这次“书籍重构”的起点并不是宏大的愿景,而是一个非常具体、甚至有点狼狈的个人困境。Lukasz Gandecki(演讲中自我介绍的发音接近“Sukash Ganditski”)提到,他在阅读一本关于唐纳德·特朗普再次竞选总统的书时,遇到了严重的理解障碍。作为一名非美国读者,书中人物众多、关系复杂,他很难跟上叙事节奏。
于是他选择了工程师最自然的应对方式——“vip code my way through the understanding”。他快速写了一个AI陪读工具,界面“看起来很糟”,但功能非常直接:当你读到某一页时,它会自动识别出现的人物,补充背景摘要,并找到对应的图片,帮你在当前语境中理解“他们是谁”。
这个粗糙的原型解决了问题,也埋下了更大的想法。一个月后,它不再只是工具,而是演变成一种全新的阅读体验。他在台上强调,这并不是为了“做AI而做AI”,而是因为传统阅读在复杂文本面前,确实存在理解断层,而AI第一次让这种断层有了可行的补偿方式。
书不只是文字:从《雪之女王》到《1984》的沉浸式演示
真正让这个项目“变味”的,是他们开始把书当成一种多模态体验来设计。演讲中,他展示了基于《雪之女王》打造的早期案例:在巫师学徒带着扭曲现实的镜子飞向天空的段落里,画面、音乐和朗读同步推进;当镜子坠落、世界被扭曲时,声音和视觉也随之“破碎”。这个版本是波兰语的,但效果已经非常直观。
在为会议专门制作的英文演示中,他们选择了《1984》。这里最关键的创新不是动画,而是“你可以直接对书说话”。读者可以按住按钮录一段语音,问:“这一幕现在发生了什么?”系统会在你松手后约100毫秒内响应。
他毫不客气地评价现有语音助手:“几乎所有都很糟糕。”包括前一天谷歌的演示,官方承认成功率只有50%,常见问题包括延迟、打断用户、在错误的时间说话。相比之下,他们通过“按住即说、松手即答”的交互,避免了连续监听带来的混乱。
更重要的是,你可以继续阅读,再问一句:“从我上次问你到现在,发生了什么?”系统会自动总结这段内容。这个体验目前可以在 bookgenius.net 上查看。
搜索、Embedding 与“像人一样找书中场景”
在阅读长篇小说时,我们记住的往往不是页码,而是模糊的情节片段。演讲者用《1984》举了一个非常贴切的例子:如果你想找“温斯顿第一次见到奥布莱恩的那一幕”,精确关键词搜索几乎无能为力。
他们的解决方案是使用 Embedding(语义向量)搜索。Embedding 可以把文本映射到语义空间中,从而支持“意思相近”的查找。你只需要描述记忆中的场景,就能快速跳转到对应段落,读完后还能一键回到原本的阅读位置。
更进一步,你甚至可以提出一个研究型问题,比如:“讲讲党是如何通过宣传来运作的。”系统会从你当前读到的位置开始,向前回溯整本书的相关内容,进行一次“深度阅读”后再回答。这不是即时响应,可能需要几分钟,但它本质上是在替你完成一次针对整本书的主题研究。
在他看来,这不是在“增强搜索”,而是在模拟人类回忆和理解文本的方式,而这正是传统阅读工具长期忽略的一层。
把AI藏起来:快速迭代、丢弃代码与人类审美
除了阅读体验本身,这场演讲对“如何用AI做产品”的反思同样尖锐。他坦言,整个项目最初是用非常混乱的 Vanilla JavaScript 快速堆出来的,但这反而带来了极高的迭代自由度。“你不知道你不知道什么”,在当下,与其花大量时间前期规划,不如先让AI生成一个能跑的东西。
一个极具共鸣的金句是:“扔掉你倾注心血写的代码很痛苦,但扔掉AI写的代码感觉很好。”他把产品开发形容为“变化的波浪”:一开始推翻重来的幅度很大,随着理解加深,重写的幅度会越来越小,直到可以进入传统工程阶段,加测试、做重构。
但他也提醒,重构有陷阱。他提出一个判断公式:是否重构,取决于‘代码有多糟 × 改动有多痛苦 × 有多容易修改’。如果一段代码虽然糟糕,但几乎不用再碰,那就不值得动。
在产品层面,他们刻意“让AI消失”。AI负责初稿、分析和生成,但音乐是否好听、画面是否有美感、角色形象是否贴合人物气质,这些最终判断都由人来完成。他直言:“AI不知道它生成的音乐是不是好。”真正的魔法,来自简单模块的精心组合,而不是把聊天机器人直接暴露给用户。
总结
这场演讲真正打动人的地方,不在于某个炫技的模型,而在于它重新定义了“书可以是什么”。通过语音、语义搜索、音乐和视觉的融合,阅读第一次变成了可对话、可追问、可沉浸的过程。更重要的是,演讲者反复强调隐藏AI、尊重人类审美与情绪,这为所有AI产品提供了一个清醒的方向:不是让用户感知技术,而是让体验本身自然发生。
关键词: AI阅读, 多模态体验, Embedding搜索, 语音交互, 生成式AI
事实核查备注: 演讲标题:Books reimagined: AI to create new experiences for things you know;演讲者:Lukasz Gandecki(视频中自我介绍发音略有差异);示例书籍:《雪之女王》(波兰语体验)、《1984》(英文体验);语音响应时间:约100毫秒;提及网站:bookgenius.net;技术点:Embedding语义搜索、LLM场景分析、音乐生成、结构化XML元数据;公司/产品提及:Google(语音演示成功率50%)、OpenAI、ChatGPT。