正在加载视频...
视频章节
这期 Latent Space 的对话抛出一个刺痛行业的观点:癌症药物失败,问题不只在分子,而在我们用来“理解生物”的模型。Noetik 选择了一条最贵、最慢、也最反直觉的路——自己建实验室,用 Transformer 和计算机视觉,从真实肿瘤数据里逼近答案。
癌症临床95%失败率,可能不是药不行,而是模型太天真
这期 Latent Space 的对话抛出一个刺痛行业的观点:癌症药物失败,问题不只在分子,而在我们用来“理解生物”的模型。Noetik 选择了一条最贵、最慢、也最反直觉的路——自己建实验室,用 Transformer 和计算机视觉,从真实肿瘤数据里逼近答案。
最反直觉的一点:先别谈模型,先把实验室打开
很多 AI for Science 项目一上来就谈模型规模、参数量、预训练,但 Noetik 的起点恰恰相反。Ron Alfa 和 Daniel Bear 在视频里直说:"我们基本是先把实验室打开,招人、买仪器、开始自己找肿瘤样本。说实话,一开始完全没有先验证明这事一定能成。"
这在 AI 圈听起来几乎是“反模式”。大多数团队依赖现成数据集、公开数据库,Noetik 却选择最慢、最烧钱的一条路——自己生成数据。原因很简单:癌症这种系统级复杂问题,现有数据根本不够用,更不对齐真实的治疗决策场景。
虚拟细胞不是游戏引擎,而是失败率的放大镜
视频里反复提到一个残酷事实:癌症临床试验的失败率高得离谱,标题里直接点名“95%”。Noetik 的判断是,问题不只是分子设计,而是我们选错了病人。
传统做法依赖极简的生物标志物(biomarker):某个突变、有或没有。但在他们看来,这种简化在真实生物系统面前几乎是自欺欺人。Daniel Bear 提到一个“唱反调”的观点:你不能只问“这个分子好不好”,而要问“这个病人群体,是否才是它真正的匹配对象”。
所谓 virtual cell,并不是更酷的可视化,而是试图在给药之前,就模拟出哪些患者可能有效、哪些注定失败。
为什么是 Transformer + 计算机视觉?因为这是个“肉很厚”的问题
当对话转到技术层,信息密度突然拉满。他们把肿瘤组织视为一个典型但极其困难的计算机视觉问题:尺度巨大、结构复杂、局部与整体强相关。
Noetik 的系统并不只盯着单个细胞,而是刻意去看“更大的组织区域”。原因在于,治疗反应往往不是某一个细胞决定的,而是细胞、微环境、空间结构共同作用的结果。这也是为什么他们更偏向 Transformer 这类能建模长程依赖的架构。
他们甚至拿 ImageNet 做类比:在视觉领域,规模是必要但不充分条件;而在生物领域,连“正确规模的数据”本身都还在被重新定义。
对自监督学习的冷水:好看,不一定有用
一个很容易被忽略的观点是他们对流行方法的克制态度。视频里明确提到:即便是看起来很强的自监督模型,也未必真正捕捉到了“什么能预测治疗反应”。
原因并不复杂:优化目标错了。你可以把组织切片表示得非常漂亮,但如果这些表征和真实的用药结局没有强关联,那在临床上依然是空中楼阁。这也是为什么 Noetik 坚持把模型训练、实验数据生成、下游问题绑定在一起,而不是分段外包给不同团队。
真正的桥梁:从小鼠到人类,而不是从论文到新闻稿
视频里有一句话很容易被低估:"这是一座从小鼠到人类的桥。" 对生物学家来说,这是最难、也最有价值的部分。
大量研究死在这里——动物模型里有效,进了人体就失败。Noetik 试图用更贴近人类组织的数据、更复杂的模型,缩短这段“死亡之谷”。他们也很坦诚:这件事仍然存在不确定性,没有人能保证成功。但至少,路径是朝着减少无效试验的方向走的。
总结
这期对话真正值得 AI 从业者反复咀嚼的,不是某个具体模型,而是一种取舍逻辑:当问题足够重要时,是否愿意为“正确的数据”和“真实的对齐”付出极高成本。对你而言,这意味着重新审视手里的问题——你是在优化一个好看的 benchmark,还是在逼近一个真实世界的决策?如果癌症药物的 95% 失败率都能被系统性地降低一点点,那 AI 在科学里的价值,才刚刚开始显现。
关键词: AI for Science, 癌症临床试验, Transformer, 计算机视觉, 虚拟细胞
事实核查备注: 需要核查:视频标题中“95%失败率”的具体语境;Noetik 是否公开其模型或结果;受访者姓名 Ron Alfa、Daniel Bear 的拼写;视频发布时间 2026-04-20。