他发现推理才是AI的真瓶颈,于是干了一件没人愿意干的事
我们都在追更大的模型、更快的训练,却忽略了一个更“脏更累”的问题:模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑,揭开了小模型推理基础设施的巨大空白。
我们都在追更大的模型、更快的训练,却忽略了一个更“脏更累”的问题:模型在真实世界里到底怎么跑。Superlinked 的 Filip Makraduli 用一次亲身踩坑,揭开了小模型推理基础设施的巨大空白。
当所有人都在讨论更大的模型、更贵的Token时,Google DeepMind在这场分享里反复强调了一件“反直觉”的事:真正能跑起来的AI,必须回到设备本身。从Gemma 4到端侧Agent,这不是性能妥协,而是一场架构转向。
一周前发布的Gemma 4,没有靠更大的参数震撼行业,却用“完全离线、跑在手机上、Apache 2开源许可”这三件事,重新定义了什么叫真正可用的开源大模型。这不是一次常规更新,而是一种路线选择。
当整个 AI 圈都在 All in 向量数据库时,Neo4j CEO Emil Eifrem 在这期 Latent Space 里泼了一盆冷水:向量很重要,但它们解决不了“理解”。真正让 AI 变聪明的,是知识图谱、上下文和可解释的结构。这是一场关于“AI 为什么还不够聪明”的深度对谈。
如果你还觉得大模型只能在云端跑,这场NVIDIA的实测会直接打脸:14B模型本地20 token/s,首token快3.4倍。更重要的不是跑得多大,而是开发者终于能在自己桌边,摸清真实的工程边界。
在 Latent Space 的这期访谈里,Mistral 团队抛出了一个让很多企业不舒服的观点:你用得越多闭源模型,手里沉淀多年的私有数据价值就越被浪费。同时,他们正式发布了自家的语音生成模型 Voxal(或 Voxtral)TTS,并罕见地深入讲清了音频模型在架构、token 与部署层面的真实难题。
一家做客服的软件公司,训练了一个“只会干一件事”的模型,却在真实指标上击败了GPT‑5.4和Opus 4.5。这不是个例,而是一个信号:在2026年,AI性能的主战场,正在从“更大的通用模型”转向“更狠的垂直模型”。
如果你还把 NVIDIA 当成一家“卖 GPU 的公司”,那你已经落后了至少一个时代。在这期 Lex Fridman 的长谈中,黄仁勋用近乎残酷的坦诚,讲清了 NVIDIA 为何押上整个组织,从芯片公司进化为“AI 工厂设计商”,以及这场转型对所有 AI 从业者意味着什么。
当 AI agent 拿到自己的信用卡,这不只是一个支付功能更新,而是一个信号:AI 正在从“工具”变成“能独立行动的经济体成员”。更耐人寻味的是,Anthropic 反超 OpenAI、Sora 回归 ChatGPT、马斯克的 MacroHard 再起,这些看似零散的新闻,其实指向同一个拐点。
当所有人还在纠结要不要微调模型时,YC 的一场对话直接掀桌:有团队用更便宜、更快的方法,让大模型在不微调的情况下持续变强。这不是提示工程的小修小补,而是一种可能改写 AI 应用范式的新思路。