文章

当90%准确率仍不够用:金融领域为何仍需要专用大模型

当90%准确率仍不够用:金融领域为何仍需要专用大模型

在通用大模型准确率逼近90%的今天,Writer CTO Waseem Alshikh 用一套真实金融场景评测给出了反直觉答案:越“会思考”的模型,在金融任务中越容易胡编。本文还原这次评测的来龙去脉、关键数据和对行业的深远启示。

api_bot · 2025-04-22 · 72 阅读 · AI/人工智能
从一个函数到完整研究代理:Vercel AI SDK的实战方法论

从一个函数到完整研究代理:Vercel AI SDK的实战方法论

这场由 Vercel AI SDK 团队成员 Nico 主讲的 Masterclass,不只是一次 API 教程,而是完整展示了如何用统一接口、工具调用和结构化输出,逐步搭建一个“深度研究型 AI Agent”。从最基础的 generateText,到递归式研究代理,视频给出了清晰、可复用的工程路径。

api_bot · 2025-04-20 · 115 阅读 · AI/人工智能
为什么AI Agent总翻车?一位工程师的冷静诊断

为什么AI Agent总翻车?一位工程师的冷静诊断

在AI Agent被热烈追捧的当下,Sayash Kapoor给出了一次“泼冷水式”的演讲:Agent并没有我们想象中那么可靠。通过法律、科研和产品落地的真实失败案例,他指出问题不在模型能力,而在评估方法与可靠性工程。

api_bot · 2025-04-17 · 64 阅读 · AI/人工智能
从“可能性”到“现实”:2025 AI Index透露的七个关键拐点

从“可能性”到“现实”:2025 AI Index透露的七个关键拐点

斯坦福2025年AI Index不是一份追热点的报告,而是一张年度趋势地图。通过456页的纵向数据,它揭示了AI从概念走向现实的真正拐点:企业全面下注、成本快速下探、中国迅速追赶,以及被忽视却至关重要的社会心态变化。

api_bot · 2025-04-12 · 49 阅读 · AI/人工智能
2个工程师,如何把AI Agent推到5亿级生产规模

2个工程师,如何把AI Agent推到5亿级生产规模

一家只有两名核心工程师参与的团队,如何在金融这种高风险场景中,把AI Agent真正推到生产环境,并支撑每天千万级请求?这场分享讲清了从GPT-4试水、成本失控,到微调小模型实现质量、成本、延迟三赢的完整路径。

api_bot · 2025-04-12 · 62 阅读 · AI/人工智能
Manis登场:多智能体协作,AI代理迈入可用时代

Manis登场:多智能体协作,AI代理迈入可用时代

YC最新视频聚焦AI代理平台Manis:它并非更强的单一模型,而是一套精密的多智能体协作系统。文章深入拆解其技术架构、真实能力、成本优势,以及“应用层rapper”模式的机会与隐忧,帮助读者理解AI代理下一阶段真正的竞争焦点。

api_bot · 2025-04-08 · 55 阅读 · AI/人工智能
为什么真正有用的个人AI代理,必须本地、私有、可控

为什么真正有用的个人AI代理,必须本地、私有、可控

PyTorch 联合创始人 Soumith Chintala 从亲身使用 AI 的挫折与收获出发,提出一个与主流云端 Agent 不同的判断:真正能托付个人生活的 AI,必须运行在本地、完全私有。本文还原他的关键故事、技术现实与尚未解决的挑战。

api_bot · 2025-04-06 · 112 阅读 · AI/人工智能
在OCaml孤岛里造AI:Jane Street的工程化答案

在OCaml孤岛里造AI:Jane Street的工程化答案

当大多数公司直接接入现成AI工具时,Jane Street却选择了一条更难的路:围绕自研语言生态,从数据、训练到编辑器,重新打造AI开发工具链。这篇文章还原了他们如何在“模型不懂OCaml”的现实下,把大语言模型真正变成可用生产力。

api_bot · 2025-03-28 · 164 阅读 · AI/人工智能
为什么AI工程正在走向Agent工程:swyx的行业分水岭判断

为什么AI工程正在走向Agent工程:swyx的行业分水岭判断

在这场看似轻松却信息密度极高的演讲中,swyx给出了一个清晰信号:AI工程正在从“调用模型”迈向“构建Agent”。这不仅是技术能力成熟的结果,更是一场关于身份、方法论和产业方向的转变。

api_bot · 2025-03-24 · 66 阅读 · AI/人工智能