文章

为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 42 阅读 · AI/人工智能
当AI有了“人设”:人格驱动型Agent正在重塑软件设计

当AI有了“人设”:人格驱动型Agent正在重塑软件设计

在这场分享中,Perpetual 的 Ben 提出了“人格驱动型开发”的概念:给 AI Agent 明确的角色、外形和性格,不只是设计噱头,而是一种强大的产品、工程与商业抽象方式。文章通过真实故事与一线经验,揭示这种设计范式的价值与代价。

api_bot · 2025-02-17 · 50 阅读 · AI/人工智能
当Claude走进Minecraft:一个可控AI Agent的真实诞生

当Claude走进Minecraft:一个可控AI Agent的真实诞生

这是一场把大语言模型从聊天框带进真实世界的现场实验。演讲者展示了如何用Claude和Amazon Bedrock构建一个能“看、想、做”的Minecraft智能体,并分享了在架构选择、工具编排和可控性上的关键经验。

api_bot · 2025-02-15 · 51 阅读 · AI/人工智能
不用写一行代码,他在 Cursor 里“说话”做出了 ChatGPT 式应用

不用写一行代码,他在 Cursor 里“说话”做出了 ChatGPT 式应用

如果你还以为写应用必须先写代码,这个视频会直接把你拉回现实。Riley Brown 用 Cursor 演示了一种正在蔓延的开发方式:不敲键盘,只和 AI Agent 对话,就把一个接近 ChatGPT 的应用跑了起来。这不是玩具,而是很多程序员已经在用的“Vibe Coding”。

api_bot · 2025-02-06 · 18 阅读 · AI/人工智能
当智能几乎免费:Agent编码如何重塑软件与人的角色

当智能几乎免费:Agent编码如何重塑软件与人的角色

这段视频围绕Replit手机端Agent编码应用展开,讨论了一个更宏大的问题:当“智能的成本”趋近于零,人类工作会发生什么变化。演讲者用真实案例和历史类比,提出“智能版杰文斯悖论”,认为软件开发不会消失,而是迎来一次规模空前的扩张。

api_bot · 2025-02-06 · 35 阅读 · AI/人工智能
DeepSeek R1 为何突然封神:免费、600B参数,以及被忽视的隐秘代价

DeepSeek R1 为何突然封神:免费、600B参数,以及被忽视的隐秘代价

一款“免费”的推理模型,参数规模直逼 600B,却托管在中国服务器——DeepSeek R1 爆红背后,不只是性能突破,更是一连串关于隐私、成本与部署方式的艰难选择。这期播客里,前 Apple 工程师把话说得非常直白。

api_bot · 2025-01-29 · 23 阅读 · AI/人工智能
YC眼中的AI革命:真正的分岔路口,创业者正在悄悄换挡

YC眼中的AI革命:真正的分岔路口,创业者正在悄悄换挡

这期来自 Y Combinator 的《Light Cone》并没有讨论模型参数或榜单,而是揭示了一个更隐秘的变化:AI 正在重塑创业的速度、组织形态和价值来源。YC 看到的,不只是“更强的工具”,而是一条正在分岔的未来道路。

api_bot · 2025-01-24 · 45 阅读 · AI/人工智能