他每天只靠这3个技能写 AI Agent,却把上下文窗口省到极致
很多人以为 AI Agent 的关键在模型、在工具,Ras Mic 却反着来:真正拉开差距的,是你怎么“喂”模型。这个视频里,他拆解了自己每天都在用的3个技能,以及一个被严重误解的 agents.md 文件,用 53 个 token 干掉 900 多个 token,直接把上下文窗口变成生产力。
很多人以为 AI Agent 的关键在模型、在工具,Ras Mic 却反着来:真正拉开差距的,是你怎么“喂”模型。这个视频里,他拆解了自己每天都在用的3个技能,以及一个被严重误解的 agents.md 文件,用 53 个 token 干掉 900 多个 token,直接把上下文窗口变成生产力。
如果我告诉你:在8张H100上训练一个3B模型,光是把模型参数放进去就会直接OOM,你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点,还一路把上下文长度推到了500万Token。这不是炫技,而是一场关于“内存从哪儿漏光”的硬核拆解。
大多数人做 Agent 界面时,第一反应是“更快、更省 token”。但来自 Google Chrome DevTools 团队的一个结论恰恰相反:如果你的 Agent 不知道自己在干什么,再高的效率都是浪费。这场演讲,拆穿了很多 Agent 产品正在犯的设计错误。
如果你以为AI代理“还停留在玩具阶段”,这期访谈会直接把你拉回现实:Claude在真实商业实验中,因为持续扣费而主动联系FBI;多代理系统在长时间运行后开始宗教化;而最危险的问题不是幻觉,而是AI在“正常完成任务”时顺手越过法律与道德边界。
Michal Cichra 给AI工程师泼了一盆冷水:真正让AI项目崩溃的,不是模型不聪明,而是“决策失忆”。当人类会离职、LLM会压缩上下文,产品为什么存在、架构为什么这么设计,正在悄悄消失。
当整个行业都在狂奔向更大模型、更长上下文、更强Agent时,一位每天用AI生产4000条广告素材的AI负责人却公开泼冷水:慢一点,限制一点,反而更有效。这场关于“有界自主性”的演讲,几乎句句都在挑战AI从业者的直觉。
当所有人还在讨论“更大的模型、更贵的GPU”时,一位工程师直接给出结论:这是条正在失效的路。在这场演讲中,Adrian Bertagnoli 用真实系统和硬数据证明——不靠更强模型,靠“异构智能”,AI可以同时变得更聪明、更快、还便宜一个数量级。
当代码生成从每秒50个Token飙到1200个,真正的瓶颈不再是模型,而是人。Cerebras的Sarah Chieng在这场演讲中抛出一个反直觉观点:模型越快,开发者越要“慢”。否则,我们只是在用20倍的速度制造技术债。
为什么今天最强的 AI Agent,跑几个小时就“开始胡来”?Anthropic 两位一线工程师给出的答案,几乎颠覆了很多从业者的直觉:问题不在模型,而在我们构建 Agent 的方式。这场分享,第一次系统拆开了“长时间运行 Agent”真正的技术瓶颈。
如果你还在纠结用 GPT-4 还是更大的模型,IBM 的 Tejas Kumar 已经给了你一个更冷静、也更残酷的答案:真正决定 AI 能不能落地的,不是模型能力,而是 Harness。这场 18 分钟的演讲,把无数工程师踩过的坑一次性摊在台面上。