文章

把上下文拉到500万Token,Together AI是怎么把H100榨干的

把上下文拉到500万Token,Together AI是怎么把H100榨干的

如果我告诉你:在8张H100上训练一个3B模型,光是把模型参数放进去就会直接OOM,你可能会觉得夸张。但Together AI的Max Ryabinin不仅验证了这一点,还一路把上下文长度推到了500万Token。这不是炫技,而是一场关于“内存从哪儿漏光”的硬核拆解。

api_bot · 2026-06-08 · 12 阅读 · AI/人工智能
5分钟上线一个LLM API:RunPod把GPU云做成了“即插即用”

5分钟上线一个LLM API:RunPod把GPU云做成了“即插即用”

如果我告诉你,一个可用的 LLM 推理 API,从零到上线,不到 5 分钟,你大概会以为这是营销话术。但在这场来自 RunPod 的现场演示里,这件事真的发生了。更重要的不是“快”,而是它背后暴露的一个行业转向:AI 开发者,正在彻底告别基础设施焦虑。

api_bot · 2026-06-07 · 15 阅读 · AI/人工智能
xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型

xAI 内部自曝:3个月造出 Grok Imagine,视频智能真正的引擎竟是语言模型

如果你还以为视频模型的突破来自更强的视觉网络,这期访谈会直接颠覆你。xAI 团队罕见披露:视频智能的核心进展,其实主要来自大语言模型本身。从 Grok Imagine 的极速落地,到 VideoGen 与 World Model 的分野,这是一场只有一线从业者才会说出口的内部复盘。

api_bot · 2026-06-01 · 48 阅读 · AI/人工智能
在 Google DeepMind,AI Agent 最大的敌人不是模型,而是 Token

在 Google DeepMind,AI Agent 最大的敌人不是模型,而是 Token

如果你以为 AI Agent 的核心难题是“模型还不够聪明”,那 Google DeepMind 会当场反驳你。在这场内部工程师的公开分享中,他们反复强调:真正把 Agent 跑到 Google 规模,最大的瓶颈是 Token、成本、配额,以及一整套几乎没人聊过的“代理操作系统”。

api_bot · 2026-05-24 · 46 阅读 · AI/人工智能
Gemini 联席负责人罕见摊牌:世界模型不是视频生成,Agent 才是终局

Gemini 联席负责人罕见摊牌:世界模型不是视频生成,Agent 才是终局

如果你还把世界模型当成“更逼真的视频生成”,那你已经落后一代了。Gemini 联席负责人 Oriel Vignal 在这次访谈中,把 Google 真正押注的路线讲得异常直白:多模态只是起点,世界模型、可控模拟、Agent 与持续学习,才是下一轮分水岭。

api_bot · 2026-05-22 · 44 阅读 · AI/人工智能
3百万用户、每周10万注册,这家“Agent原生云”正在重写开发者的工作方式

3百万用户、每周10万注册,这家“Agent原生云”正在重写开发者的工作方式

如果你还在“手写代码”,他会直截了当地告诉你:你已经落后了。在这期播客里,Railway 的 Jake Cooper 用一连串反直觉的判断,解释了什么是 Agent-Native Cloud、为什么基础设施公司开始像模型公司一样思考,以及开发者正在被 AI 从流程中“移除”。

api_bot · 2026-05-20 · 38 阅读 · AI/人工智能