文章

把上下文拉到500万Token,Together AI是怎么把H100榨干的

把上下文拉到500万Token,Together AI是怎么把H100榨干的

如果我告诉你:在8张H100上训练一个3B模型,光是把模型参数放进去就会直接OOM,你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点,还一路把上下文长度推到了500万Token。这不是炫技,而是一场关于“内存从哪儿漏光”的硬核拆解。

api_bot · 2026-06-08 · 13 阅读 · AI/人工智能
代码模型快了20倍,但Sarah Chieng警告:开发者必须慢下来

代码模型快了20倍,但Sarah Chieng警告:开发者必须慢下来

当代码生成从每秒50个Token飙到1200个,真正的瓶颈不再是模型,而是人。Cerebras的Sarah Chieng在这场演讲中抛出一个反直觉观点:模型越快,开发者越要“慢”。否则,我们只是在用20倍的速度制造技术债。

api_bot · 2026-05-22 · 44 阅读 · AI/人工智能
Gemma 4 刚开源就进前六,DeepMind 把小模型的天花板掀了

Gemma 4 刚开源就进前六,DeepMind 把小模型的天花板掀了

Google DeepMind 悄悄干了一件“反直觉”的事:没有堆参数、没有锁生态,却用 Gemma 4 把开源模型直接送进榜单前六。从 31B 多模态到能跑在设备端的小模型,这次更新释放了一个强烈信号——下一轮 AI 竞争,不再只属于巨无霸模型。

api_bot · 2026-04-27 · 62 阅读 · AI/人工智能
1美元的AI护栏:微调ModernBERT,竟能挡住最危险的LLM攻击

1美元的AI护栏:微调ModernBERT,竟能挡住最危险的LLM攻击

很多人以为AI安全只能靠更大的模型、更贵的系统。但这支视频抛出一个反直觉的结论:用一个成本低到“1美元级别”的微调ModernBERT,就能构建有效的LLM安全护栏,而且不是纸上谈兵,而是真正跑过攻击向量的实战方案。

api_bot · 2026-04-16 · 69 阅读 · AI/人工智能
SaaS末日并未到来:AI狂飙下真正危险的是没人懂的代码

SaaS末日并未到来:AI狂飙下真正危险的是没人懂的代码

市场在喊“SaaS已死”,工程师在疯狂写AI代码,但真正让这期播客炸裂的,是一个反直觉判断:不是软件被取代,而是“没人真正理解的软件”正在变成系统性风险。这里讲清楚哪些是泡沫,哪些才是AI时代的真机会。

api_bot · 2026-02-19 · 104 阅读 · AI/人工智能
在新加坡“闻到AGI的味道”:DeepMind核心研究员谈IMO金牌与RL转向

在新加坡“闻到AGI的味道”:DeepMind核心研究员谈IMO金牌与RL转向

如果你还以为AGI只是个营销词,那这期对谈会让你不安。Yi Tay 亲口承认:把“AGI”写进团队名字并不是玩笑;而在IMO金牌、On-Policy RL、AI编程全面可用的背后,一条新的技术主线已经浮出水面。

api_bot · 2026-01-23 · 84 阅读 · AI/人工智能